2018年04月_ajsyipsc40270

转载【Python 数据分析】pandas数据导入

导入CSV文件数据环境C:\Users\Thinkpad\Desktop\Data\信息表.csv语法pd.read_csv(filename)：从CSV文件导入数据实现代码import pandas as pdf = open("C:/Users/Thinkpad/Desktop/Data/信息表.csv",encoding="utf-8")content = pd.read_cs...

2018-04-28 10:45:00 353

转载【Python 数据分析】module 'numpy' has no attribute 'array'

安装好Numpy模块后，开始做了几个小测试都可以运行，但是当我创建numpy.py这个文件后numpy.pyimport numpyy = numpy.array([[11,4,2],[2,6,1],[32,6,42]])print(y)运行后报错了：Traceback (most recent call last): File "D:\Python_Reptile\numpy...

2018-04-27 16:51:00 5112

转载【Python 数据分析】pandas模块

上一节，我们已经安装了numpy,基于numpy，我们继续来看下pandaspandas用于做数据分析与数据挖掘pandas安装使用命令pip install pandas出现上图表示安装成功。pandas又两大数据结构，数据分析相关的都围绕着这两种结构进行：①Series②DataFrameSeries用于存储序列这样的...

2018-04-26 22:39:00 106

转载【Python 数据分析】Numpy模块

Numpy模块可以高效的处理数据，提供数组支持、很多模块都依赖他，比如：pandas、scipy、matplotlib 安装Numpy 首先到网站：https://www.lfd.uci.edu/~gohlke/pythonlibs/下查找numpy+mkl 我的Python版本是3.6.1，系统是64位所以对应下载的包为：下载好包之后，进入到包所在目录(例如：D:\安装包\安...

2018-04-26 22:25:00 77

转载【Python】八大排序算法的比较

排序是数据处理比较核心的操作，八大排序算法分别是：直接插入排序、希尔排序、简单选择排序、堆排序、冒泡排序、快速排序、归并排序、基数排序以下是排序图解：直接插入排序思想直接插入排序是一种最简单的插入排序。插入排序：每一趟将一个待排序的记录，按照其关键字的大小插入到有序队列的合适位置里，知道全部插入完成。在讲解直接插入排序之前，先让我们脑补一下我们打牌的过程。先拿一张5在手里，再摸到一张4，...

2018-04-26 18:05:00 110

转载【Python3 爬虫】16_抓取腾讯视频评论内容

上一节我们已经知道如何使用Fiddler进行抓包分析，那么接下来我们开始完成一个简单的小例子抓取腾讯视频的评论内容首先我们打开腾讯视频的官网https://v.qq.com/我们打开【电视剧】这一栏，找到一部比较精彩的电视剧爬取一下，例如：我们就爬取【下一站，别离】这部吧我们找到这部电视剧的评论如下图：我们看到上图标记部分【查看更多评论】我们首先在F...

2018-04-26 12:37:00 204

转载【Python3 爬虫】15_Fiddler抓包分析

我们要抓取一些网页源码看不到的信息，例如：淘宝的评论等我们可以使用工具Fiddler进行抓取软件下载地址：https://pan.baidu.com/s/1nPKPwrdfXM62LlTZsoiDsg 密码：wche 安装不详细介绍，直接下一步即可安装完成后,运行程序如下：设置代理打开火狐浏览器如下设置： Fiddler默认只能抓取HTTP协议的网页，不能抓取HTTPS协议...

2018-04-22 17:22:00 123

转载【Python3 爬虫】14_爬取淘宝上的手机图片

现在我们想要使用爬虫爬取淘宝上的手机图片，那么该如何爬取呢？该做些什么准备工作呢？首先，我们需要分析网页，先看看网页有哪些规律打开淘宝网站http://www.taobao.com/ 我们可以看到左侧是主题市场，将鼠标移动到【女装/男装/内衣】这一栏目，我们可以看到更细类的展示假如我们现在需要爬取【羽绒服】，那么我们进入到【羽绒服】衣服这个界面此时查看浏览器地址，我们可以看...

2018-04-22 14:55:00 236

转载【Python3 爬虫】13_爬取博客园首页所有文章

首先，我们确定博客园首页地址为：https://www.cnblogs.com/我们打开可以看到有各种各样的文章在首页，如下图：我们以上图标记的文章为例子吧！打开网页源码，搜索Docker,搜索结果如下图：从上图后红色标记部分可以看出，我们使用正则表达式即可匹配该网址，我们匹配到该网址之后，将该网址对应的内容下载到到底进行存储。实现代码import url...

2018-04-22 09:34:00 259

转载【Python3 爬虫】12_代理IP的使用

我们在爬取页面的时候，如果长时间使用一个网址去爬取某个网站，就会受爬去限制，此时，我们引用了代理IP，IP随时在变化，也就不会被限制了一下是国内提供免费代理IP的地址：http://www.xicidaili.com/我们打开这个网页后可以看到如下图的代理IP与地址上图标记部分就是一个代理IP与其端口号那么下面我们就开始使用代理IP来爬取内容首先，我们需要自定义o...

2018-04-21 22:26:00 3099

转载【Python】self的用法扫盲

在Python中，我们有两个重要的概念：类与实例例如：我们在现实生活中人就是一个类，实例就是具体到某一个男人（张三、李四等）1.类：定义人这个类class People(object): pass2.实例：创建实例是通过类名+()实现people1 = People()3.类就像一个模板一样，我们现在在这个模板上加一些属性：age,name,使用内置方法__init__方法class ...

2018-04-04 17:59:00 99

转载【Python3 爬虫】11_报错No module named 'requests'

从网上下载了一段源码，执行过程中报错：No module named 'requests'一看英文就明白是咋回事了~ 是由于：没有模块requests解决方案打开cmd,在窗口运行命令：pip install requests安装成功以后再次运行，无错误了！转载于:https://www.cnblogs.com/OliverQin/p/8716937.html...

2018-04-04 14:04:00 147

ajsyipsc40270的博客