2018年07月_cskywit

原创爬虫学习之19：使用Scrapy框架爬取简书网热门专题信息

使用框架技术就是方便，在一步步学习各种库的使用基础上，最终还是为了更好的理解和使用现成的框架。这里爬取的是简书网的热门专题信息，包括专题的名字，简介，关注人数收录文章数，最后通过Feed exports功能吧爬到的信息存取到CSV文件中。zhuantispider.py from scrapy.spiders import CrawlSpiderfrom scrap...

2018-07-29 17:16:57 709

原创爬虫学习之18：使用selenium和chrome-headerless爬取淘宝网商品信息（异步加载网页）

登录淘宝网，使用F12键观察网页结构，会发现淘宝网也是异步加载网站。有时候通过逆向工程区爬取这类网站也不容易。这里使用selenium和chrome-headerless来爬取。网上有结合selenium和PlantomJS来爬取的，但是最新版的Selenium已经放弃对PlantomJS的支持，所以这里使用chrome-headerless，方法其实差不多，由于selenium可以...

2018-07-27 14:59:44 2240

原创爬虫学习之17：爬取拉勾网网招聘信息（异步加载+Cookie模拟登陆）

很多网站需要通过提交表单来进行登陆或相应的操作，可以用requests库的POST方法，通过观测表单源代码和逆向工程来填写表单获取网页信息。本代码以获取拉勾网Python相关招聘职位为例作为练习。打开拉钩网，F12进入浏览器开发者工具，可以发现网站使用了Ajax，点击Network选项卡，选中XHR项，在Header中可以看到请求的网址，Response中可以看到返回的信息为Js...

2018-07-24 17:34:18 2120 1

原创爬虫学习之16：爬取简书网用户动态信息（异步加载页面的爬取）

网上很多页面均采用异步加载，采用普通的request方法得不到结果。使用Chrome浏览器的Network选项卡可以查看网页加载过程中的所有文件信息，通过对这些文件的查看和筛选，就可以找出需抓取的数据，另外，异步加载网页的分页文件大部分在XHR（可扩展超文本传输请求）中，选中该选项，在向下滑动网页的过程中可以发现在加载文件，这些文件的header部分即为分页的URL，Response...

2018-07-23 16:47:20 1468 1

原创 Ubuntu18.04下搭建深度学习环境（tensorflow CPU GPU、Keras、Pytorch、Pycharm、Jupyter）

以前一直都是在Windows上玩CPU版的Tensorflow，现在有时间弄一下，买了一根16GB的内存条扩容上。以前是Win10+Ubuntu双系统，以前的Ubuntu上由于做实验有一堆的错误待解决，现在懒得折腾了，直接装成Ubuntu单系统。我的电脑配置如下：CPU：Intel Core i7-7770HQ内存：24GB显卡：NVIDIA 940MX硬盘：128GBS...

2018-07-21 16:55:42 9954 1

原创爬虫学习之15：多进程爬取58二手交易市场数据保存到mongodb，并实现简单断点续爬

本代码继续使用多进程的方式爬取58同城二手交易数据，并保存到mongoDB，在爬取商品详情时，使用Python集合操作来实现简单的断点续爬。25二手市场如图首先要获取不同频道的链接，编写代码channel_extract.py获取左边大类导航的链接，底下的channel_list是用代码爬取出来的，为了方便后面用，直接print出来用三引号转换为多行字符串。import ...

2018-07-18 23:33:32 1066

原创爬虫学习之14：多进程爬取简书社会热点数据保存到mongodb

本代码爬取简书社会热点栏目10000页的数据，使用多进程方式爬取，从简书网页可以看出，网页使用了异步加载，页码只能从response中推测出来，从而构造url，直接上代码：import requestsfrom lxml import etreeimport pymongofrom multiprocessing import Poolimport timeheaders = {...

2018-07-14 11:32:06 632

原创爬虫学习之13：代理的使用

使用爬虫的过程中即使再使用time.sleep()函数暂停，对于很多网站仍然会被封锁，因此需要使用代理，网上推荐较多的是西刺代理，本文编写个简单的爬虫来获取西刺代理国内高匿代理的IP加端口，可以获取到地址后，可以在爬虫中构建代理地址池，不断的使用不同的代理发起爬虫，防止被封锁。代码如下：from bs4 import BeautifulSoup # 解析网页from fake_usera...

2018-07-12 16:56:48 14383

原创爬虫学习之12：多进程爬虫初试

之前写的代码都是串行的单线程爬虫，当爬取页面数量更多，数据量更大时，速度明显降低，这里使用Python Multiprocessing库的进程池方法测试多进程爬虫的效率，爬取糗事百科文字板块的用户ID，发表段子的文字信息、好笑数量和评论数量这几个数据，由于只是测试性能，对爬取的数据不进行保存。上代码：import requestsimport reimport timefrom mu...

2018-07-08 17:20:22 533

原创爬虫学习之11：爬取豆瓣电影TOP250并存入数据库

本次实验主要测试使用PyMySQL库写数据进MySQL，爬取数据使用XPATH和正则表达式，在很多场合可以用XPATH提取数据，但有些数据项在网页中没有明显特征，用正则表达式反而反而更轻松获取数据。直接上代码：from lxml import etreeimport requestsimport reimport pymysqlimport timeheaders = { ...

2018-07-08 16:52:43 2908 2

原创爬虫学习之10：爬取糗事百科用户地址信息并用热力图展示

本程序综合使用了Xpath和Requests库爬取爬取糗事百科用户地址信息，并运用百度地图API接口将爬取到的地址信息转换为经纬度信息，同时使用BDP可视化工具(https://me.bdp.cn/home.html)将经纬度信息显示为热力图。程序爬取中的几个坑，部分用户地址信息缺失，爬取中需要有判断机制；部分用户的地址是国外地址，用中文名查不到，后续可以结合百度翻译API将中...

2018-07-05 00:07:08 937

原创爬虫学习之9：结合百度翻译API爬取PEXELS网站图片

PEXELS网站上的图片素材，质量很高，可以免费用于个人和商业用途，但是搜索功能不能用中文，这里结合百度翻译API完成搜索路径的构建。由于百度翻译API为个人申请使用，这里用XXX代替，需要的童鞋可以自己申请免费key。代码如下：from bs4 import BeautifulSoupimport requestsimport jsonimport randomimport ...

2018-07-03 22:51:49 1160

原创 Keras学习之4：多分类问题（reuters路透社新闻数据为例）

本数据库包含来自路透社的11,228条新闻，分为了46个主题。与IMDB库一样，每条新闻被编码为一个词下标的序列。上代码：from keras.datasets import reutersfrom keras.utils.np_utils import to_categoricalfrom keras import modelsfrom keras import layersimport...

2018-07-03 16:13:07 3937 1

原创 Keras学习之3：回归问题（boston_housing数据为例）

本实验使用boston_housing数据集对房价数据进行回归分析，数据来自1970年代，波斯顿周边地区的房价，是用于机器学习的经典数据集。该数据集很小，共计506条数据，分为404个训练样本和102个测试样本，因此需要采用K-Fold，这里取K=4。每条数据包含13个特征，分别为：CRIM - per capita crime rate by townZN - proportion o...

2018-07-03 16:00:18 9877 1

原创爬虫学习之8：使用网站API获取数据（持续更新）

很多网站提供了API供开发者获取数据用，通常返回的数据为JSON格式，本文以百度开放者平台为例对通过API进行数据获取进行实验，由于百度API接口很多，后续会把实验的接口陆续补充上去，都是很简单的程序，以后可以以此为基础编写更综合的应用程序。百度API的使用步骤都差不多，注册百度开发者平台->获得免费的AppID和Key->构造开发者文档中提供的URL-&gt...

2018-07-02 22:13:39 26596 2

原创爬虫学习之7：使用XPATH爬取起点小说网小说信息(保存到EXCEL)

起点小说网如上图，爬取小说的作者、类型、连载状态、介绍和字数信息，使用Xpath并保存到EXCEL中，代码简单不做解释，如下：import xlwtimport requestsfrom lxml import etreeimport timeheaders = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) App...

2018-07-01 22:46:50 4256 2

原创爬虫学习之6：使用XPATH爬取豆瓣TOP500书籍(保存到CSV)

豆瓣读书TOP500页面如下，爬取每本书的书名、作者、出版社、出版日期、价格、星级和评论数。代码简单，直接附上：from lxml import etreeimport requestsimport csvheaders = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, ...

2018-07-01 21:57:24 1976

原创 Hadoop学习笔记13之MapReduce本地模式

MapReduce编程模型：映射+化简。编程方式----------------extends Mapper{ map(){ ... }}extends Reducer{ reduce(){ ... }}分区----------------- ...

2018-07-01 18:03:48 184

寸先生的AI道路