自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 收藏
  • 关注

原创 第5章 panda 合并

第5章 合并import numpy as npimport pandas as pddf = pd.read_csv('data/table.csv')df.head() School Class ID Gender Address Height Weight ...

2020-04-29 20:45:16 417

原创 第4章panda 变形

第4章 变形import numpy as npimport pandas as pddf = pd.read_csv('data/table.csv')df.head() School Class ID Gender Address Height Weight ...

2020-04-28 22:27:54 321

原创 第3章 panda 分组

第3章 分组import numpy as npimport pandas as pddf = pd.read_csv('data/table.csv',index_col='ID')df.head() School Class Gender Address Height Weig...

2020-04-26 21:21:28 359

原创 爬虫task3

session和cookie前置:动态网页和静态网页静态网页静态网页就是我们上一篇写的那种 html 页面,后缀为 .html 的这种文件,直接部署到或者是放到某个 web 容器上,就可以在浏览器通过链接直接访问到了,常用的 web 容器有 Nginx 、 Apache 、 Tomcat 、Weblogic 、 Jboss 、 Resin 等等,很多很多。举个例子:https://desm...

2020-04-25 22:21:43 165

原创 爬虫Task 02 re

2.3 学习正则表达式 re2.3.1 为什么使用正则表达式?典型的搜索和替换操作要求您提供与预期的搜索结果匹配的确切文本。虽然这种技术对于对静态文本执行简单搜索和替换任务可能已经足够了,但它缺乏灵活性,若采用这种方法搜索动态文本,即使不是不可能,至少也会变得很困难。通过使用正则表达式,可以:- 测试字符串内的模式。 例如,可以测试输入字符串,以查看字符串内是否出现电话号码模式或信...

2020-04-23 22:06:27 727

原创 爬虫Task 02 Xpath

2.2 学习xpath2.2.1 学习目标:学习xpath,使用lxml+xpath提取内容。使用xpath提取丁香园论坛的回复内容。抓取丁香园网页:http://www.dxy.cn/bbs/thread/626626#626626 。2.2.2 Xpath常用的路径表达式:XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文...

2020-04-23 22:05:08 104

原创 爬虫Task 02 bs4

二、学习内容2.1 Beautiful Soup库入门学习beautifulsoup基础知识。使用beautifulsoup解析HTML页面。Beautiful Soup 是一个HTML/XML 的解析器,主要用于解析和提取 HTML/XML 数据。它基于HTML DOM 的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。B...

2020-04-23 22:04:14 115

原创 第2章 panda 索引

第2章 索引import numpy as npimport pandas as pddf = pd.read_csv('data/table.csv',index_col='ID')df.head() School Class Gender Address Height Weig...

2020-04-23 21:58:39 352

原创 py爬虫task1

爬虫基础及练习import requestsimport reimport urllibr=requests.get('http://www.baidu.com')r.status_code200r.encoding #分析header给出编码'ISO-8859-1'r.apparent_encoding #分析内容给出编码'utf-8'r.encodi...

2020-04-21 23:39:15 503 1

原创 没人和我重复标题!第1章 Pandas基础

第1章 Pandas基础查看Pandas版本(本教程全部使用1.0.0版本)import pandas as pdimport numpy as nppd.__version__'0.25.1'一、文件读取与写入1. 读取(a)csv格式df = pd.read_csv('data/table.csv')df.head() #head()函数,读取前5行,原型默...

2020-04-20 14:00:50 612

原创 Python机器学习Adaboost算法

Adaboost算法简介AdaBoost是典型的Boosting算法,属于Boosting家族的一员。Boosting算法是将“弱学习算法“提升为“强学习算法”的过程,主要思想是“三个臭皮匠顶个诸葛亮”。一般来说,找到弱学习算法要相对容易一些,然后通过反复学习得到一系列弱分类器,组合这些弱分类器得到一个强分类器。Boosting算法要涉及到两个部分,加法模型和前向分步算法。加法模型就是说强分类器...

2019-12-08 11:11:30 338

原创 Python机器学习SVM支持向量机

一、线性分类器(1)线性函数线性分类器(一定意义上,也可以叫做感知机) 是最简单也很有效的分类器形式.在一个线性分类器中,可以看到SVM形成的思路,并接触很多SVM的核心概念。用一个二维空间里仅有两类样本的分类问题来举个小例子。如图所示:C1和C2是要区分的两个类别,在二维平面中它们的样本如上图所示。中间的直线就是一个分类函数,它可以将两类样本完全分开。一般的,如果一个线性函数能够将样本完...

2019-11-30 21:53:25 400

原创 Python机器学习Logistic回归

一,Logistic回归基本原理Logistic Regression和Linear Regression的原理是相似的。原理可如下描述:(1)找一个合适的预测函数(Andrew Ng的公开课中称为hypothesis),一般表示为h函数,该函数就是我们需要找的分类函数,它用来预测输入数据的判断结果。这个过程时非常关键的,需要对数据有一定的了解或分析,知道或者猜测预测函数的“大概”形式,比如是...

2019-11-30 20:08:02 400

原创 Python机器学习朴素贝叶斯算法

一、条件概率的定义与贝叶斯公式二,朴素贝叶斯分类法朴素贝叶斯是一种有监督的分类算法,可以进行二分类,或者多分类。一个数据集实例如下图所示:现在有一个新的样本, X = (年龄:<=30, 收入:中, 是否学生:是, 信誉:中),目标是利用朴素贝叶斯分类来进行分类。假设类别为C(c1=是 或 c2=否),那么我们的目标是求出P(c1|X)和P(c2|X),比较谁更大,那么就将X分为某...

2019-11-23 21:25:09 669

原创 Python机器学习K临近算法

K近邻(KNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。 所谓K最近邻,就是K个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。KNN算法的核心思想是如果一个样本在特征空间中的K个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特征。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样...

2019-11-16 18:13:23 773 1

原创 Python基础12.模块

Python3.7模块在前面的几个章节中我们脚本上是用 python 解释器来编程,如果你从 Python 解释器退出再进入,那么你定义的所有的方法和变量就都消失了。为此 Python 提供了一个办法,把这些定义存放在文件中,为一些脚本或者交互式的解释器实例使用,这个文件被称为模块。模块是一个包含所有你定义的函数和变量的文件,其后缀名是.py。模块可以被别的程序引入,以使用该模块中的函数等功...

2019-11-05 21:49:33 142

原创 Python基础11.魔法方法

python3.7魔法方法定义:魔术方法,指python中所有以”__”(双下划线)作为名字开头和结尾的方法。它们也被称为“dunders”。我们最常用到的应该就是“init”魔术方法简介方法描述–del–析构函数,释放对象时使用–repr–打印转换–setitem–按照索引赋值–getitem–按照索引取值–len–获取长度–c...

2019-11-03 12:34:08 270

原创 Python基础10.类与对象

Python3.7面向对象(1)面向对象技术简介类(Class): 用来描述具有相同的属性和方法的对象的集合。它定义了该集合中每个对象所共有的属性和方法。对象是类的实例。方法:类中定义的函数。类变量:类变量在整个实例化的对象中是公用的。类变量定义在类中且在函数体之外。类变量通常不作为实例变量使用。数据成员:类变量或者实例变量用于处理类及其实例对象的相关的数据。方法重写:如果从父类继承...

2019-11-01 19:30:44 250

原创 Python基础09.else与with语句

Python3.7else与with语句else语句(1)while-else语句list=[1,2,3,4]while 0 in list: print('0在该列表中')else: print('0不在该列表中')结果: 0不在该列表中(2)for-else语句在 python 中,for … else 表示这样的意思,for 中的语句和普通的没有区别,else 中的语...

2019-10-31 14:59:58 147

原创 Python基础08.异常与处理

Python3.7错误和异常Python有两种错误很容易辨认:语法错误和异常。Python常见异常总结:异常描述AssertionError断言语句(assert)失败AttributeError尝试访问未知的对象属性ImportError导入模块失败IndexError索引超出序列范围KeyError字典中查找一个不存在的关键字M...

2019-10-30 20:08:36 137

原创 Python基础07.文件与文件系统

Python3.7 File(文件) 方法open() 方法Python open() 方法用于打开一个文件,并返回文件对象,在对文件进行处理过程都需要使用到这个函数,如果该文件无法被打开,会抛出 OSError。注意:使用 open() 方法一定要保证关闭文件对象,即调用 close() 方法。open() 函数常用形式是接收两个参数:文件名(file)和模式(mode),如下:ope...

2019-10-28 21:32:25 100

原创 Python基础06.字典与集合

Python3.7字典字典是另一种可变容器模型,且可存储任意类型对象。(1)字典的创建字典的每个键值 key=>value 对用冒号 : 分割,每个键值对之间用逗号 , 分割,整个字典包括在花括号 {} 中,如:dict1={'a':1,'b':'2','c':'apple'} #键值对dict2=dict(a=1,b=2,c='apple') #使用dict函数p...

2019-10-27 15:14:50 241

原创 Python基础05.函数与lambda表达式

python3.7函数函数是组织好的,可重复使用的,用来实现单一,或相关联功能的代码段。(1)定义一个函数定义函数的规则:1.函数代码块以 def 关键词开头,后接函数标识符名称和圆括号()。2.任何传入参数和自变量必须放在圆括号中间。圆括号之间可以用于定义参数。3.函数的第一行语句可以选择性地使用文档字符串—用于存放函数说明。4.函数内容以冒号起始,并且缩进。5.return [...

2019-10-25 11:35:54 229

原创 Python3.7基础04.字符串与序列

Python3.7字符串字符串是 Python 中最常用的数据类型。我们可以使用引号('或")来创建字符串。创建字符串很简单,只要为变量分配一个值即可。str1='hello python'str2="hello python"(1)访问字符串中的值Python 不支持单字符类型,单字符在 Python 中也是作为一个字符串使用。Python 访问子字符串,可以使用方括号来截取字符串(...

2019-10-24 12:13:29 188

原创 Python基础01.变量、运算符与数据类型

一,Python3.7变量,运算符与数据类型1,变量赋值,多变量赋值Python 中的变量赋值不需要类型声明。每个变量在内存中创建,都包括变量的标识,名称和数据这些信息。每个变量在使用前都必须赋值,变量赋值以后该变量才会被创建。等号(=)用来给变量赋值。等号(=)运算符左边是一个变量名,等号(=)运算符右边是存储在变量中的值。#变量赋值counter = 100 # 赋值整型变量...

2019-10-22 21:11:25 146

原创 Python基础03.列表与元组

Python3.7列表与元组1,列表序列是Python中最基本的数据结构。序列中的每个元素都分配一个数字 - 它的位置,或索引,第一个索引是0,第二个索引是1,依此类推。列表是最常用的Python数据类型,它可以作为一个方括号内的逗号分隔值出现。列表的数据项不需要具有相同的类型。(1)创建列表创建一个列表,只要把逗号分隔的不同的数据项使用方括号括起来即可。list1=['apple', ...

2019-10-22 20:10:41 121

原创 Python基础02.条件与循环

Python基础02.条件与循环Python3.7条件语句1、条件语句(1)if else 语句 if 判断语句: 执行语句 #成立执行 ..... else: ..... #不成立时执行a=5if a%2==0: print(a,"是偶数")else: print(a,"是奇数...

2019-10-21 22:05:07 111

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除