自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

寸先生的AI道路

可上九天揽月,可下五洋捉鳖,谈笑凯歌还

  • 博客(18)
  • 资源 (1)
  • 收藏
  • 关注

原创 爬虫学习之19:使用Scrapy框架爬取简书网热门专题信息

         使用框架技术就是方便,在一步步学习各种库的使用基础上,最终还是为了更好的理解和使用现成的框架。这里爬取的是简书网的热门专题信息,包括专题的名字,简介,关注人数收录文章数,最后通过Feed exports功能吧爬到的信息存取到CSV文件中。zhuantispider.py  from scrapy.spiders import CrawlSpiderfrom scrap...

2018-07-29 17:16:57 709

原创 爬虫学习之18:使用selenium和chrome-headerless爬取淘宝网商品信息(异步加载网页)

       登录淘宝网,使用F12键观察网页结构,会发现淘宝网也是异步加载网站。有时候通过逆向工程区爬取这类网站也不容易。这里使用selenium和chrome-headerless来爬取。网上有结合selenium和PlantomJS来爬取的,但是最新版的Selenium已经放弃对PlantomJS的支持,所以这里使用chrome-headerless,方法其实差不多,由于selenium可以...

2018-07-27 14:59:44 2240

原创 爬虫学习之17:爬取拉勾网网招聘信息(异步加载+Cookie模拟登陆)

         很多网站需要通过提交表单来进行登陆或相应的操作,可以用requests库的POST方法,通过观测表单源代码和逆向工程来填写表单获取网页信息。本代码以获取拉勾网Python相关招聘职位为例作为练习。打开拉钩网,F12进入浏览器开发者工具,可以发现网站使用了Ajax,点击Network选项卡,选中XHR项,在Header中可以看到请求的网址,Response中可以看到返回的信息为Js...

2018-07-24 17:34:18 2120 1

原创 爬虫学习之16:爬取简书网用户动态信息(异步加载页面的爬取)

       网上很多页面均采用异步加载,采用普通的request方法得不到结果。使用Chrome浏览器的Network选项卡可以查看网页加载过程中的所有文件信息,通过对这些文件的查看和筛选,就可以找出需抓取的数据,另外,异步加载网页的分页文件大部分在XHR(可扩展超文本传输请求)中,选中该选项,在向下滑动网页的过程中可以发现在加载文件,这些文件的header部分即为分页的URL,Response...

2018-07-23 16:47:20 1468 1

原创 Ubuntu18.04下搭建深度学习环境(tensorflow CPU GPU、Keras、Pytorch、Pycharm、Jupyter)

     以前一直都是在Windows上玩CPU版的Tensorflow,现在有时间弄一下,买了一根16GB的内存条扩容上。以前是Win10+Ubuntu双系统,以前的Ubuntu上由于做实验有一堆的错误待解决,现在懒得折腾了,直接装成Ubuntu单系统。我的电脑配置如下:CPU:Intel Core i7-7770HQ内存:24GB显卡:NVIDIA 940MX硬盘:128GBS...

2018-07-21 16:55:42 9954 1

原创 爬虫学习之15:多进程爬取58二手交易市场数据保存到mongodb,并实现简单断点续爬

    本代码继续使用多进程的方式爬取58同城二手交易数据,并保存到mongoDB,在爬取商品详情时,使用Python集合操作来实现简单的断点续爬。25二手市场如图首先要获取不同频道的链接,编写代码channel_extract.py获取左边大类导航的链接,底下的channel_list是用代码爬取出来的,为了方便后面用,直接print出来用三引号转换为多行字符串。import ...

2018-07-18 23:33:32 1066

原创 爬虫学习之14:多进程爬取简书社会热点数据保存到mongodb

   本代码爬取简书社会热点栏目10000页的数据,使用多进程方式爬取,从简书网页可以看出,网页使用了异步加载,页码只能从response中推测出来,从而构造url,直接上代码:import requestsfrom lxml import etreeimport pymongofrom multiprocessing import Poolimport timeheaders = {...

2018-07-14 11:32:06 632

原创 爬虫学习之13:代理的使用

    使用爬虫的过程中即使再使用time.sleep()函数暂停,对于很多网站仍然会被封锁,因此需要使用代理,网上推荐较多的是西刺代理,本文编写个简单的爬虫来获取西刺代理国内高匿代理的IP加端口,可以获取到地址后,可以在爬虫中构建代理地址池,不断的使用不同的代理发起爬虫,防止被封锁。代码如下:from bs4 import BeautifulSoup # 解析网页from fake_usera...

2018-07-12 16:56:48 14383

原创 爬虫学习之12:多进程爬虫初试

    之前写的代码都是串行的单线程爬虫,当爬取页面数量更多,数据量更大时,速度明显降低,这里使用Python Multiprocessing库的进程池方法测试多进程爬虫的效率,爬取糗事百科文字板块的用户ID,发表段子的文字信息、好笑数量和评论数量这几个数据,由于只是测试性能,对爬取的数据不进行保存。上代码:import requestsimport reimport timefrom mu...

2018-07-08 17:20:22 533

原创 爬虫学习之11:爬取豆瓣电影TOP250并存入数据库

     本次实验主要测试使用PyMySQL库写数据进MySQL,爬取数据使用XPATH和正则表达式,在很多场合可以用XPATH提取数据,但有些数据项在网页中没有明显特征,用正则表达式反而反而更轻松获取数据。直接上代码:from lxml import etreeimport requestsimport reimport pymysqlimport timeheaders = { ...

2018-07-08 16:52:43 2908 2

原创 爬虫学习之10:爬取糗事百科用户地址信息并用热力图展示

     本程序综合使用了Xpath和Requests库爬取爬取糗事百科用户地址信息,并运用百度地图API接口将爬取到的地址信息转换为经纬度信息,同时使用BDP可视化工具(https://me.bdp.cn/home.html)将经纬度信息显示为热力图。     程序爬取中的几个坑,部分用户地址信息缺失,爬取中需要有判断机制;部分用户的地址是国外地址,用中文名查不到,后续可以结合百度翻译API将中...

2018-07-05 00:07:08 937

原创 爬虫学习之9:结合百度翻译API爬取PEXELS网站图片

      PEXELS网站上的图片素材,质量很高,可以免费用于个人和商业用途,但是搜索功能不能用中文,这里结合百度翻译API完成搜索路径的构建。由于百度翻译API为个人申请使用,这里用XXX代替,需要的童鞋可以自己申请免费key。代码如下:from bs4 import BeautifulSoupimport requestsimport jsonimport randomimport ...

2018-07-03 22:51:49 1160

原创 Keras学习之4:多分类问题(reuters路透社新闻数据为例)

本数据库包含来自路透社的11,228条新闻,分为了46个主题。与IMDB库一样,每条新闻被编码为一个词下标的序列。上代码:from keras.datasets import reutersfrom keras.utils.np_utils import to_categoricalfrom keras import modelsfrom keras import layersimport...

2018-07-03 16:13:07 3937 1

原创 Keras学习之3:回归问题(boston_housing数据为例)

     本实验使用boston_housing数据集对房价数据进行回归分析,数据来自1970年代,波斯顿周边地区的房价,是用于机器学习的经典数据集。该数据集很小,共计506条数据,分为404个训练样本和102个测试样本,因此需要采用K-Fold,这里取K=4。每条数据包含13个特征,分别为:CRIM - per capita crime rate by townZN - proportion o...

2018-07-03 16:00:18 9877 1

原创 爬虫学习之8:使用网站API获取数据(持续更新)

      很多网站提供了API供开发者获取数据用,通常返回的数据为JSON格式,本文以百度开放者平台为例对通过API进行数据获取进行实验,由于百度API接口很多,后续会把实验的接口陆续补充上去,都是很简单的程序,以后可以以此为基础编写更综合的应用程序。       百度API的使用步骤都差不多,注册百度开发者平台->获得免费的AppID和Key->构造开发者文档中提供的URL-&gt...

2018-07-02 22:13:39 26596 2

原创 爬虫学习之7:使用XPATH爬取起点小说网小说信息(保存到EXCEL)

    起点小说网如上图,爬取小说的作者、类型、连载状态、介绍和字数信息,使用Xpath并保存到EXCEL中,代码简单不做解释,如下:import xlwtimport requestsfrom lxml import etreeimport timeheaders = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) App...

2018-07-01 22:46:50 4256 2

原创 爬虫学习之6:使用XPATH爬取豆瓣TOP500书籍(保存到CSV)

豆瓣读书TOP500页面如下,爬取每本书的书名、作者、出版社、出版日期、价格、星级和评论数。代码简单,直接附上:from lxml import etreeimport requestsimport csvheaders = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, ...

2018-07-01 21:57:24 1976

原创 Hadoop学习笔记13之MapReduce本地模式

MapReduce编程模型:映射+化简。 编程方式----------------extends Mapper{         map(){                   ...         }}extends Reducer{         reduce(){                   ...              }}分区-----------------     ...

2018-07-01 18:03:48 184

DataSocket技术在网络化测试中的应用

基于Labview的DataSocket编程,快速构建网络化资源,使用基于VC的快速Active控件

2010-08-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除