Python爬虫
记录学习到的网络爬虫技巧,与大家分享,共同进步
酸辣粉不要辣
这个作者很懒,什么都没留下…
展开
-
Python爬虫入门——3.9 Scrapy爬虫实战
声明:搬运自“ 从零开始学Python网络爬虫 ”作者:罗攀,蒋仟机械工业出版社ISBN:9787111579991上一节我们讲了Scrapy框架的安装以及基本信息,这一节我们就开始使用Scrapy框架进行知乎数据的爬取。首先利用命令管理器创建一个知乎的项目项目。具体做法是在打开的命令管理器输入 ˚F:(我要创建项目的盘) cd F:\ soft_exercise \ pytho...原创 2018-11-28 20:30:33 · 1568 阅读 · 0 评论 -
Python爬虫入门——3.8 Scrapy爬虫项目文件介绍
本节我们就使用scrapy框架来编写爬虫程序。声明:参考资料“ 从零开始学Python网络爬虫 ”作者:罗攀,蒋仟机械工业出版社ISBN:9787111579991上节我们创建的scrapy项目如下图所示 首先来介绍一下这里面的文件:最顶层是douban的文件夹 第二层是与项目名同名的文件夹douban以及scrapy.cfg文件.。douban文件夹是包,因为里面含...原创 2018-11-27 20:43:22 · 2088 阅读 · 0 评论 -
Python爬虫入门——3.7 Scrapy爬虫框架安装
声明:参考资料《从零开始学Python网络爬虫 》作者:罗攀,蒋仟 机械工业出版社 ISBN: 9787111579991 参考资料《精通Python网络爬虫:核心技术、框架与项目实战 》作者:韦玮 机械工业出版社 ISBN: 9787111562085Python的爬虫框架其实就是一些爬虫项目的半成品,框架里面已经完成了相当一部分的工作量,而我们爬...原创 2018-11-27 17:01:50 · 767 阅读 · 0 评论 -
Python爬虫入门——3.6 Selenium 爬取淘宝信息
上一节我们介绍了Selenium工具的使用,本节我们就利用Selenium跟Chrome浏览器结合来爬取天猫羽绒服商品的信息,当然你可以用相同的方法来爬取淘宝其他商品的信息。我们要爬取羽绒服的价卖家信息,并将其打印from selenium import webdriver#from selenium.webdriver.chrome.options import Options#fro...原创 2018-11-25 21:22:50 · 1667 阅读 · 2 评论 -
Python爬虫入门——3.5 Selenium 模拟浏览器
声明:参考资料“ 从零开始学Python网络爬虫 ”作者:罗攀,蒋仟机械工业出版社Selenium浏览器是一个强大的网络数据采集工具,它可以让浏览器自动加载网络数据,从而来获取我们需要的信息。我们可以在朋友pycharm里面安装Selenium库。在Windows下安装Selenium模块教程如下:首先在pycharm打开 File -> setting -> Project un...原创 2018-11-24 16:08:13 · 285 阅读 · 0 评论 -
Python爬虫入门——3.3 表单交互 Post
迄今为止,我们爬取的网页都是未登录状态下的网页信息,当我们想要获取登录之后的信息该怎么做呢?这时我们只需要使用requests库自带的post方法即可。使用post的过程比较简单,我们只需要构造讲一个字典,然后利用post上传到网页即可。使用方法如下:import requestsparams = { 'name':'xxx', 'passw...原创 2018-11-22 19:44:34 · 810 阅读 · 0 评论 -
Python爬虫入门——3.2 动态网页爬虫
当你搜索百度图片时(百度图片),你会发现,当你向下滑动鼠标,就会自动加载下一页的图片数据,但是网页的URL却没有改变。从而你就无法通过一般的构造URL的方法来抓取网页数据。这是由于网页使用了异步加载技术。异步加载技术传统的网页如果需要更新网页信息就需要重新加载整个网页的数据信息。因此会存在加载速度慢的情况从而导致用户体验感差。而采用了异步加载技术来加载网页数据就会通过后台与服务器之间少量的...原创 2018-11-22 11:06:42 · 471 阅读 · 0 评论 -
Python爬虫入门——3.1 多进程爬虫
我们上次爬取了斗破苍穹全文小说,并保存到本地TXT文件,但是下载速度超级慢(不排除我这垃圾i5电脑的原因),我都玩了一盘王者荣耀,还没有下载完成。j究其原因是我们只是应用了单进程爬取,所以爬取速度大打折扣。鉴于此我们本节介绍多进程爬虫。首先简单介绍一下多进程。通常我们的计算机在运行程序时,他会自己创建一个包含代码和状态的进程。这些进程会通过计算机的一个或者多个CPU执行,不过同一时刻一个CPU...原创 2018-11-17 21:44:39 · 285 阅读 · 0 评论 -
Python爬虫入门——2.6 爬取美女图片
整天爬取文字,搞得我也有点烦了,所以这一篇博文就给大家送福利。叫你们如何爬取美女图片并保存到本地文件夹。网络连接https://tieba.baidu.com/f?kw=%E5%A5%B3%E7%A5%9E&ie=utf-8&tab=good。百度贴吧女神吧精品声明:参考资料 《从零开始学Python网络爬虫》 作者:罗攀、蒋仟 机械工业出版社美女图片我就不上传了...原创 2018-11-13 14:39:51 · 3711 阅读 · 1 评论 -
Python爬虫入门——2. 5 爬取斗破苍穹并保存到本地TXT
这次我们爬取斗破苍穹http://www.doupoxs.com/doupocangqiong/的全部文字,并保存到本地TXT。 话不多说,上代码:#导入requests库import requests#导入 re 库#导入时间模块import timeimport re#定义请求头,请求头可以使爬虫伪装成浏览器headers = {'User...原创 2018-11-12 15:00:39 · 2757 阅读 · 0 评论 -
Python爬虫入门——2. 4 利用正则表达式爬取豆瓣电影 Top 250
现在我们利用上节刚刚学到的正则表达式来爬取豆瓣电影Top250的名单。这是豆瓣电影的连接https://movie.douban.com/top250。豆瓣电影每个页面只有25个数据,所以我们需要爬取10个页面的数据。 首先我们观察一下豆瓣电影第一页的URL,并没有发现什么规律,接着我们手动翻到第二页https://movie.douban.com/top250?...原创 2018-11-11 11:13:50 · 3461 阅读 · 1 评论 -
Python爬虫入门——2. 3 正则表达式
正则表达式对于新手来说,不够友好,因为表达式是由符号构成的,新手看到他会一脸茫然,但是在提取网页信息的时候,熟练运用正则表达式会起到事半功倍的效果。学习正则表达式是你学习网络爬虫绕不过去的。接下来我们就简单介绍一下正则表达式。 之所以称之为正则表达式是因为这串特殊的字符串可以识别 “正则字符串(regular string)” 。所谓的正则字符串指的是有个规律的字符...原创 2018-11-10 21:22:48 · 428 阅读 · 0 评论 -
Python爬虫入门——2. 2爬取酷狗音乐top1-500歌曲信息
有了第一个程序的基础,我们现在来爬取酷狗音乐top500的歌曲信息。连接http://www.kugou.com/yy/rank/home/1-8888.html我们第一个程序只爬取了一个页面的数据,而现在我们需要爬取多个页面的数据,即跨页面爬虫。这就需要我们观察网页URL来构造一个列表利用for循环,分次抓取了。接下来看代码:#导入requests库import re...原创 2018-11-10 15:14:56 · 2546 阅读 · 0 评论 -
Python爬虫入门——2. 1 我的第一个爬虫程序
第一个爬虫程序就写的简单一点,我们用requests库以及BeautifulSoup库来完成我们的第一个程序(我们所用的python版本为 3.x)。我们爬取豆瓣图书(https://book.douban.com/top250?start=25)Top1-25的书名#导入requests库import requests#导入BeautSoup库from bs4 i...原创 2018-11-09 21:42:19 · 531 阅读 · 0 评论 -
Python爬虫入门——1.2常用第三方库的安装
Python作为一门胶水语言,能够在众多领域流行起来的一个很重要的原因是python具有强大的第三方库。这样就可以拾取线程的零件组装一个完整的程序。这就好比某知名厂商一样,核心部件均购买自国外,然后进行组装,贴上巨大的logo即可。在科技领域这样做是没有核心竞争力的,赚得的钱都被国外零件厂商瓜分殆尽。但是在爬虫领域这却是一个非常友好的现象,因为我们不需要再重新写一遍已经存在的东西了...原创 2018-11-09 10:34:14 · 2057 阅读 · 0 评论 -
Python爬虫入门——1.1爬虫原理
1,先介绍一下网络连接的基本原理: ( 加亮字体摘自百度百科) 网络链接,即根据统一资源定位符(URL,uniform resource location),运用超文本标记语言(HTML,hyper text markup language),将网站内部网页之间、系统内部之间或不同系统之间的超文本和超媒体进行链接。通过此种链接技术,即可从一网站的网页连接到另一网站的网页,正是这...原创 2018-11-09 09:46:22 · 251 阅读 · 0 评论