Python网络爬虫
带翅膀的猫
天天写BUG的软件开发工程师~
展开
-
(廿九)Python爬虫:IP代理池的开发
通过本文您可以了解IP代理池的意义,同时本文详细讲解了开发IP代理池的过程,阅读后您可以自己实现自己的IP代理池。原创 2018-09-21 00:45:18 · 5710 阅读 · 0 评论 -
(十五)Python爬虫基础库:urllib
      从今天起开始进入爬虫的世界。网络爬虫这张东西相比都了解能干嘛,我第一次知道时感觉特别棒,希望自己能写一个,不管功能强大与否。Python语言就是写爬虫的原创 2018-08-12 16:21:51 · 4887 阅读 · 0 评论 -
(十六)Python爬虫基础库:requests
      使用urllib有许多麻烦的地方,我们可以选择requests库模拟浏览器发送请求。首先我们需要额外安装requests库,使用命令:pip3 install requests。高度赞扬requests。GET&am原创 2018-08-14 15:10:33 · 5529 阅读 · 3 评论 -
(十七)Python爬虫:爬取豆瓣电影TOP250
爬取目标:豆瓣电影TOP250,并且存入csv文件中 爬取内容: 首页请求地址:https://movie.douban.com/top250?start=0&filter= 多查看几页的请求地址我们可以发现以下规律: 1、每页显示25条内容,共10页; 2、每页的请求地址只改变start的值,第一页为0,第二页为25,第三页为50,所以第n页为(n-1)*25...原创 2018-08-16 16:11:22 · 6194 阅读 · 1 评论 -
(十八)Python爬虫:XPath的使用
      经历了爬取豆瓣电影TOP250数据我们会发现使用正则表达式其实并没有多么方便,有没有更加好的工具呢?答案当然是有的。接下来将使用三个篇幅分别介绍XPath,Beautiful Soup和pyquery原创 2018-08-22 22:28:31 · 68127 阅读 · 29 评论 -
(十九)Python爬虫:Beautiful Soup的使用
      Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup安装pip安装:现在Beautiful Soup版本为4.x,建议使用最新版,3.x已经停止开发了。使用命令pip3 install ...原创 2018-08-24 20:05:21 · 23047 阅读 · 3 评论 -
(廿)Python爬虫:pyquery的使用
      pyquery允许您在xml文档上进行jquery查询。 API尽可能与jquery类似。 pyquery使用lxml快速操作xml和html。直接使用pip3 install pyquery安装即可。加载HTML &am原创 2018-08-27 10:29:12 · 4495 阅读 · 0 评论 -
(廿一)Python:MySql存储
       我们将爬虫抓取的数据获取到后应该将它存储在数据库中供后续的数据分析等操作。现在介绍Python将数据存储在MySql数据库中。连接数据库       Py原创 2018-08-28 15:41:40 · 4089 阅读 · 0 评论 -
(廿二)Python:MongoDB存储
大部分情况下爬取的数据特别灵活,不一定只有指定的几个字段数据,这时候就需要将数据存储在非关系型数据库中了,MongoDB 是由C++语言编写的,是一个基于分布式文件存储的开源数据库系统。在高负载的情况下,添加更多的节点,可以保证服务器性能。MongoDB 旨在为WEB应用提供可扩展的高性能数据存储解决方案。MongoDB 将数据存储为一个文档,数据结构由键值(key=>value)对组成。M...原创 2018-08-31 16:02:19 · 3920 阅读 · 0 评论 -
(廿三)Python:Redis存储
      Redis是一个基于内存的高效的(读的速度是110000次/s,写的速度是81000次/s)键值型非关系型数据库,存取效率极高,支持多种存储数据结构。Redis支持数据的备份,即master-slave模式的数据备份。准备&原创 2018-09-04 14:23:08 · 6736 阅读 · 0 评论 -
(廿四)Python爬虫:爬取微博并使用MongoDB存储
必知首先我们需要切记的是我们需要爬取的微博地址为:https://m.weibo.cn。不是https://weibo.com/。因为前者的数据时通过AJAX加载的,有利于我们的抓取,后者难度大,本人找了半天也找不到接口。 本次我们爬取演员张一山的微博。操作打开开发者工具,刷新爬取页面,由于微博数据是通过AJAX请求获取的,所以选择XHR 只查看AJAX请求。 依次点击...原创 2018-09-04 23:53:27 · 5134 阅读 · 0 评论 -
(廿五)Python爬虫:抓取今日头条图片
此次完成抓取今日头条动漫图片,并将图片保存在本地。最后结果如下: 分析打开今日头条首页搜索“动漫”,查看源代码我们会发现只包含少量的HTML,所以可以判断页面是AJAX加载的。打开开发者工具查看AJAX请求: 可以发现首次加载时的接口为:https://www.toutiao.com/search_content/?offset=0&format=json&...原创 2018-09-05 21:48:28 · 5912 阅读 · 5 评论 -
(廿七)Python爬虫:Selenium使用
      Selenium是一个自动化测试工具,使用它可以驱动浏览器完成特定的动作(点击,滚动等),同时它可以获取网页源代码,做到可见及可爬。对于一些由AJAX加载的加密数据它也能很好的完成。相关安装Selenium的安装 &原创 2018-09-10 10:43:25 · 4099 阅读 · 0 评论 -
(廿八)Python爬虫:使用Selenium爬取淘宝商品信息
上文学习了Selenium,本文使用它爬取淘宝搜索到的商品信息,并且将数据存储在MongoDB中。爬取步骤1、进入淘宝首页,获取输入框和搜索按钮browser = webdriver.Chrome()wait = WebDriverWait(browser,10)def search(keyword): try: browser.get('...原创 2018-09-12 21:00:09 · 5032 阅读 · 0 评论 -
(二)、Python查询12306余票:联网查询余票信息并解析
前一篇–>实现始发站、终点站和出发日期的合法性检验首先我们来看看每查询一条信息12306网站返回的信息: 请求链接: https://kyfw.12306.cn/otn/leftTicket/queryO?leftTicketDTO.train_date=2018-01-31&leftTicketDTO.from_station=XAY&leftTicketDTO.to_station=GZG&原创 2018-01-02 22:24:42 · 6263 阅读 · 6 评论