自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

转载 数据变换的几种形式

    数据变换主要是对数据进行规范化处理,达到适用于挖掘的目的。    简单的函数变换包括平方、开方、取对数查分运算等,可以将不具有正态分布的数据变换成具有正态分布的数据,对于时间序列分析,有时简单的对数变换和差分运算就可以将非平稳序列转换成平稳序列。数据规范化    1、最大——最小规范化 :X *=(x-min)/(max-min)      映射到 [0,1...

2018-03-11 15:08:00 3906

转载 Selenium处理动态HTML

    当一些网站使用了动态加载我们该如何搞定呢?    有两种方法:其一,直接在JavaScript里面采集内容,但是操作起来十分麻烦;其二,使用python的第三方库来运行JavaScript,直接采集你在浏览器里面看到的内容。    这时候就用到了python的一个自动化测试工具Selenium,它可以根据我们的指令,让浏览器自动加载页面,获取所需要的数据。我们直接用...

2018-03-10 11:57:00 228

转载 数据清洗的几种常用手段

    数据清洗主要是删除原始数据集中的无关数据、重复数据,过滤与挖掘主题无关的数据,处理缺失值和异常值。缺失值的处理办法    1、不处理    2、删除记录    3、数据插补      a、插补均值、中位数、众数      b、使用固定值,用一个常量替换。如一个普通工人的工资缺失,可以按照当地的工资标准给值      c、最近插补:利用与缺失...

2018-03-08 16:57:00 1269

转载 数据特征分析(学习笔记)

    数据特征分析包括以下几个方面的内容:    1、分布分析      a、定量数据分布分析:绘制频率直方分布图      b、定性数据分布分析:根据变量的分类类型分组,绘制饼图和条形图来描述分布    2、对比分析      a、绝对数对比      b、相对数对比(如结构相对数、比例相对数)    3、统计量分析      a、集中趋势度量:均值、...

2018-03-05 10:18:00 295

转载 Pandas的数据初步探索(学习笔记)

Pandas数据结构        与R语言一样,python也常用于数据分析。除了常用的科学计算库Numpy和绘图库matplotlib之外,pandas也给python提供了强大助力。    首先要认识pandas的两种强大的数据结构Series和DataFrame。其中Series就是序列,类似一维数组,索引在左边,值在右边;而DataFrame则是类似于二维数组。...

2018-03-04 20:17:00 191

转载 线程和进程——python的多线程

    首先要分清楚这两个概念。        进程:一个具有独立功能的程序关于某个数据集合的一次运行活动。其一,它是一个实体;其二,是一个“执行中的程序”。    线程:进程里包含的执行单元叫线程,一个进程可以包含多个线程。它是cpu的基本调度单位。    一个进程的内存空间是可以被它的线程共享的,但是一个线程在使用时,其它线程必须等待。通过“锁”防止多个线程同时占用空...

2018-03-03 16:36:00 94

转载 python数据分析工具包(4)——matplotlib(二)

    前一篇文章,介绍了如何用matplotlib绘制一些简单的图。通常在图上需要添加很多的标注信息,如添加图例。 1 import matplotlib.pyplot as plt 2 import numpy as np 3 4 5 t=np.arange(0.,5.,0.2) 6 #这里我们设置了线的颜色以及线形,实际上也可以设置线宽等其他参数...

2018-03-01 21:31:00 83

转载 python爬虫(8)——Xpath的应用实例:爬取腾讯招聘信息

    上一篇文章,简单介绍了beautifulsoup这个解析器,下面来了解一个我非常喜欢的工具——Xpath。    Xpath是一门在XML文档中查找信息的语言,可用来在XML文档中对元素和属性进行遍历。推荐各位使用Google浏览器吧Chrome,安装一个插件工具Xpath Helper。文档传送门:http://www.w3school.com.cn/xpath/xpath...

2018-02-28 14:09:00 793

转载 python数据分析工具包(3)——matplotlib(一)

    前两篇文章简单介绍了科学计算Numpy的一些常用方法,还有一些其他内容,会在后面的实例中学习。下面介绍另一个模块——Matplotlib。    Matplotlib是一个Python 2D绘图库,试图让复杂的绘图可视化工作变得简单。只需几行代码即可生成绘图,直方图,功率谱,条形图,误差图,散点图等2D图形,这在数据分析的过程中我们经常会用到它,对分析结果进行绘图处理。Mat...

2018-02-24 20:42:00 103

转载 python爬虫(7)——BeautifulSoup

    今天介绍一个非常好用的python爬虫库——beautifulsoup4。beautifulsoup4的中文文档参考网址是:http://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/    首先使用pip安装这个库,当然还要用到lxml这个解析器,配合使用可以很方便的帮助我们处理html文档,提取所需要的信息。可以使用pip list命...

2018-02-24 12:37:00 147

转载 python数据分析工具包(2)——Numpy(二)

    上一篇文章简单地介绍了numpy的一些基本数据类型,以及生成数组和矩阵的操作。下面我们来看一下矩阵的基本运算。在线性代数中,常见的矩阵运算包括,计算行列式、求逆矩阵、矩阵的秩等。下面我们来一一实现。 1 C:\Users\Administrator\Desktop 2 λ ipython 3 Python 3.6.4 (v3.6.4:d48eceb, Dec 19...

2018-02-22 20:30:00 95

转载 python数据分析工具包(1)——Numpy(一)

    在本科阶段,我们常用的科学计算工具是MATLAB。下面介绍python的一个非常好用而且功能强大的科学计算库——Numpy。a powerful N-dimensional array object(一个强大的N维数组对象)sophisticated (broadcasting) functions (先进的(广播?)函数)tools for integratin...

2018-02-22 18:22:00 121

转载 python爬虫(6)——正则表达式(三)

    下面,我再写一个例子,加强对正则表达式的理解。还是回到我们下载的那个二手房网页,在实际中,我们并不需要整个网页的内容,因此我们来改进这个程序,对网页上的信息进行过滤筛选,并保存我们需要的内容。打开chrome浏览器,右键检查。         在网页源码中找到了我们所需要的内容。为了调试程序,我们可以在 http://tool....

2018-02-20 15:24:00 80

转载 python爬虫(5)——正则表达式(二)

    前一篇文章,我们使用re模块来匹配了一个长的字符串其中的部分内容。下面我们接着来作匹配“1305101765@qq.com advantage 314159265358 1892673 3.14 little Girl try_your_best 56 123456789@163.com python3”    我们的目标是匹配‘56’,其中\d表示匹配数字,{2}表...

2018-02-18 19:47:00 96

转载 python爬虫(4)——正则表达式(一)

    在前几篇文章中我们使用了python的urllib模块,做了一些访问网页的工作。现在介绍一个非常强大的工具——正则表达式。在讲述正则的时候,我参考了《精通正则表达式(第三版) ---Jeffrey E.F.Friedl》这本书,虽然本书的参考语言并没有python,但相通之处颇多,可以细读一部分。    通常我们在制作爬虫收集数据的时候,需要对服务器传输的数据进行匹配...

2018-02-17 21:07:00 95

转载 python爬虫(3)——SSL证书与Handler处理器

一、SSL证书问题            上一篇文章,我们创建了一个小爬虫,下载了上海链家房产的几个网页。实际上我们在使用urllib联网的过程中,会遇到证书访问受限的问题。    处理HTTPS请求SSL证书验证,如果SSL证书验证不通过,会警告用户证书不受信任(即没有通过AC认证)。      上图左边我们可以看到SSL验证失败,所以以后遇到这些网站我们...

2018-02-15 14:21:00 175

转载 python爬虫(2)——编写一个爬虫

一、URL的编码与解码    在python2中包含的urllib和urllib2,都是接受URL请求相关的模块。但是在python3中,却没有urllib2。实际上urllib2的功能在python3中可以用urllib来实现。  通常编码工作,我们使用urllib.parse.urlencode()函数,帮我们将key:value(类似于python的字典)这样的键值对转换成...

2018-02-12 12:26:00 104

转载 python爬虫(1)——urllib包

  人生苦短,我用python!一、关于爬虫  鉴于我的windos环境使用命令行感觉非常不便,也懒得折腾虚拟机,于是我选择了一个折中的办法——Cmder。它的下载地址是:cmder.netCmder是一个增强型命令行工具,不仅可以使用windows下的所有命令,更爽的是可以使用linux的命令,shell命令。下载下来后,解压即可使用。稍加设置(具体的设置可以百度),你就会...

2018-02-11 17:12:00 69

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除