baizhi1304-CSDN博客

转载 04-numpy读取本地数据和索引

1、numpy读取数据　　CSV:Comma-Separated Value,逗号分隔值文件显示：表格状态源文件：换行和逗号分隔行列的格式化文本,每一行的数据表示一条记录由于csv便于展示,读取和写入,所以很多地方也是用csv的格式存储和传输中小型的数据,为了方便教学,我们会经常操作csv格式的文件,但是操作数据库中的数据也是很容易的实现的加载数据： np.loadt...

2019-10-06 12:48:00 247

转载 10-scrapy框架介绍

Scrapy 入门教程 Scrapy 是用 Python 实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架。 Scrapy 常应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。通常我们可以很简单的通过 Scrapy 框架实现一个爬虫，抓取指定网站的内容或图片。 Scrapy架构图(绿线是数据流向) Scrapy Engine(引擎)...

2019-10-04 19:04:00 311

转载 09-移动端数据的设置爬取

1 什么是Fiddler? （伪服务器）　　Fiddler是位于客户端和服务器端的HTTP代理，也是目前最常用的http抓包工具之一。它能够记录客户端和服务器之间的所有 HTTP请求，可以针对特定的HTTP请求，分析请求数据、设置断点、调试web应用、修改请求的数据，甚至可以修改服务器返回的数据，功能非常强大，是web调试的利器。既然是代理，也就是说：客户端的所...

2019-10-04 16:13:00 130

转载 07-selenium、PhantomJS（无头浏览器）

selenium（自动化测试工具可用于在爬虫中解决js动态加载问题）　　简介(本质就是模仿浏览器工作) 　　Selenium 是什么？一句话，自动化测试工具。它支持各种浏览器，包括 Chrome，Safari，Firefox 等主流界面式浏览器，如果你在这些浏览器里面安装一个 Selenium 的插件，那么便可以方便地实现Web界面的测试。换句话说叫 Selenium 支持这些浏览...

2019-10-01 23:36:00 757

转载 06爬虫-异步协程

1. 前言（目的就是大大提升爬虫效率）　　在执行IO密集型任务的时候，代码常常遇到IO操作而等待。例如我们在爬虫的时候，用到requests请求的时候，网页响应慢，一直等待着，那么爬虫的效率会大大的降低。为了解决这类问题，本文就来探讨一下 Python 中异步协程来加速的方法，此种方法对于 IO 密集型任务非常有效。如将其应用到网络爬虫中，爬取效率甚至可以成百倍地提升。注：本...

2019-10-01 14:54:00 208

转载 Numpy数值类型与数值运算-03

什么是NumPy？　　NumPy是Python中科学计算的基本软件包。它是一个Python库，提供多维数组对象，各种派生对象（例如蒙版数组和矩阵）以及各种例程，用于对数组进行快速操作，包括数学，逻辑，形状处理，排序，选择，I / O ，离散傅立叶变换，基本线性代数，基本统计运算，随机模拟等等。 NumPy包的核心是ndarray对象。这封装了均匀数据类型的n维数组，为了提高性能...

2019-09-29 15:09:00 321

转载 Matplotlib散点图、条形图、直方图-02

对比常用统计图折线图：　　特点：能够显示数据的变化趋势，反映事物的变化情况。（变化）直方图：　　特点：绘制连续性的数据，展示一组或者多组数据的分布情况（统计）条形图：　　特点：绘制离散的数据，能够一眼看出各个数据的大小，比较数据之间的差距（统计）散点图：　　特点：判断变量之间是否存在数量关联趋势，展示离群点（分布规律）绘制散点图...

2019-09-26 20:15:00 507

转载初识Matplotlib-01

初识数据分析　　大数据是一个含义广泛的术语，是指数据集，如此庞大而复杂的，他们需要专门设计的硬件和软件工具进行处理。该数据集通常是万亿或EB的大小。这些数据集收集自各种各样的来源：传感器，气候信息，公开的信息，如杂志，报纸，文章。大数据产生的其他例子包括购买交易记录，网络日志，病历，军事监控，视频和图像档案，及大型电子商务。在大数据和大数据分析，他们对企业的影响有一个兴趣...

2019-09-25 14:45:00 228

转载 03爬虫-requests模块基础(1)

requests模块基础什么是requests模块 requests模块是python中原生基于网络模拟浏览器发送请求模块。功能强大，用法简洁高效。为什么要是用requests模块用以前的urllib模块需要手动处理url编码手动处理post参数处理cookie和代理操作繁琐 .............. requests模块自动处理url...

2019-09-24 21:44:00 101

baizhi1304的博客