普通爬虫
Last 炫神
这个作者很懒,什么都没留下…
展开
-
带有验证码的模拟登录两种方式post和selenium
首先是验证码的识别:如果验证码图片随着url地址改变而改变,即验证码的url地址是变化的,这种就很好办,直接请求并下载验证码利用打码平台进行验证码图片识别即可如果验证码图片的url地址不变,而验证码是随机改变的post方法:设置session进行验证码的get请求并下载图片进行识别得到验证码的识别结果,再利用这个sesson进行post请求,把账号密码和验证码识别结果的表单数据进...原创 2019-02-24 11:26:38 · 5203 阅读 · 0 评论 -
爬取链家网房价数据
感觉最近做的东西好菜~~随便了。import requestsfrom lxml import etreeimport csvheaders = { 'Referer': 'https://zs.fang.lianjia.com/loupan/nht1pg1/', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x...原创 2019-02-17 19:50:33 · 4218 阅读 · 21 评论 -
爬取京东图书商品信息
关键之处在于页面上的评论数的信息是动态加载的,是通过那个标签唯一的id号进行url拼接获得一个json文件然后显示的评论数。抓包寻找了许久之后发现了一个奇特的文件。然后再源代码里面搜索发现这个是商品的id号,于是提取这个id号并构造url进行进一步的响应和提取json的信息即可。写了那么多天scrapy,换下口味~~滑稽import csvimport jsonimport r...原创 2019-02-17 13:39:50 · 405 阅读 · 0 评论 -
爬取网易新闻并生成词云
import requestsfrom requests.exceptions import RequestExceptionimport jsonimport jiebaimport refrom os import pathfrom wordcloud import WordCloudimport numpy as npheaders = {'Referer': 'http...原创 2019-02-16 14:17:34 · 1609 阅读 · 3 评论 -
爬取沪江网考研词汇并按要求存为txt
存储数据的要求:每遍历一个单词,保存单词汉语翻译到txt文档,并以单词命名,保存到一个文件夹里,便于GUI设计使用。思路:大循环找herf进行url拼接,小循环进入数据网页提取信息mport reimport requestsfrom bs4 import BeautifulSoupfrom requests.exceptions import RequestExceptionhea...原创 2019-02-02 23:06:32 · 659 阅读 · 0 评论 -
Python爬取天气信息
简单的练手实例,所以进化一下,用面向对象,和输入一个城市查那个城市的七日信息import sysimport requestsfrom bs4 import BeautifulSoupfrom pypinyin import lazy_pinyinfrom requests.exceptions import RequestExceptionfrom lxml import etr...原创 2019-02-01 23:25:43 · 2128 阅读 · 0 评论 -
12天Python爬虫学习的总结和思考
爬取网页的过程1.发送请求和获取相应2.对获取的response进行想要的信息的提取3.对信息进行存储(1)发送请求和相应基本的是requests库的使用共有参数:headersheaders以字典形式添加,有的网页需要多一点的头部信息才可以获得响应。可以人为的删除一些没必要的头部信息。nb一点的用法,生成随机的头部信息用fake_useragent这个库,要pip instal...原创 2019-01-31 00:39:40 · 1234 阅读 · 0 评论 -
网易云音乐热歌榜爬取(用Jsonpath解析Json数据 + 面向对象写法)
要注意的一点是Jsonpath是从0开始数的,Xpath是从1开始数的一般写法(函数式)import requestsfrom requests.exceptions import RequestExceptionimport reimport jsonimport jsonpathimport csvimport timeheaders = { "User-Agent...原创 2019-01-30 14:51:06 · 3241 阅读 · 0 评论 -
爬取三国演义小说全文进行词频统计并生成词云
from bs4 import BeautifulSoupimport requestsfrom multiprocessing import Poolimport timeimport jiebafrom PIL import Imagefrom wordcloud import WordCloudheaders = { 'User-Agent': 'Mozilla/5....原创 2019-01-29 15:44:16 · 2402 阅读 · 0 评论 -
英雄联盟峡谷之巅前100爬取(动态网页+json格式解析)
目的是爬取英雄联盟官网的峡谷之巅前100的信息,经观察发现,每一页只有25个玩家的信息。先看网页源代码看到前面,结构清晰,很好抓取。到了中间部分发现只有前25个,后面的数据貌似被隐藏了。在此处可见,在翻页时加载了json文件于是就去抓包找json文件。。当翻页时,网站的url并没有改变,翻看前4页,通过抓包发现一共加载了3个json文件通过对比network下的3个json文件...原创 2019-01-29 00:31:07 · 1693 阅读 · 0 评论 -
豆瓣音乐Top250爬取并写入数据库
先在谷歌浏览器获取cookie和post,让请求头nb一点from requests.exceptions import RequestExceptionfrom lxml import etreeimport requestsimport pymongoimport timeimport re#写入mongoDB数据库client = pymongo.MongoClient('...原创 2019-01-25 16:19:40 · 1018 阅读 · 0 评论 -
简单练手:B站前100爬取
import requestsimport xlwtimport reheaders = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) ' 'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'}de...原创 2019-01-24 21:05:53 · 378 阅读 · 0 评论 -
爬取妹子图片
爬取图片有一个要注意的点是要对jpg那条链接在解析一次然后.write写入文件。import requestsimport re'''深入的源代码才能发现契机~'''headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) ' 'AppleWebKit/537.36 (KHTML, li...原创 2019-01-23 15:20:04 · 210 阅读 · 0 评论 -
简单的练手实例:爬取酷我音乐排行榜前200并进Exel
这个实例用正则表达式最为简单import reimport requestsimport xlwtkey_value = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) ' 'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Sa...原创 2019-01-22 19:37:39 · 975 阅读 · 1 评论 -
实例4:爬取糗事百科文字区的信息
路线: requests + BeautifulSoup + re关键之处:具体估计是为了让爬取者麻烦一点,他在评论内容里加了’< br >'标签但是,这是阻止不了我们的嘻嘻。因为内容里加了’< br >'所以内容部分我们用BeautifulSoup的get_text()方法,把所有子节点的非属性字符串变为一个列表,让后用join方法把他们合并成一个完整的段子,这一...原创 2019-01-20 22:33:53 · 159 阅读 · 0 评论 -
实例3:爬取斗破苍穹小说全文
呜呼~回到家的感觉真的不一样,下了广州站空气就清新了一番。。回到家就是熟悉而又陌生的感觉。这次的实例是爬取斗破苍穹小说网的斗破苍穹小说全文。首先要找的是原网站,不是百度到的最前面的。因为正版的蜘蛛协议也写得很清楚了。。而且里面的文本内容被藏起来了。无能为力,只能爬别的网啦哈哈。思路 通常思路1. requests + Beautiful 2. requests + re这里我们比较一下这两...原创 2019-01-20 16:55:11 · 891 阅读 · 0 评论 -
实例2:酷狗Top500信息爬取
前端的知识对爬虫真的很重要哇,比如一个CSS的div、strong标签我以为是子标签取搜索,结果就懵逼了。原来这些属性的标签是不算的。故,需要小补一哈前端知识开爬虫会好一点。进入正题,这个和我之前的那个实例爬取中国大学排名有明显的不同,虽然都是html代码解析,还没出现JavaScript,不用正则表达式,但还是有值得探索的地方。对比:之前的样例仅仅是所有信息都在同一个名字的标签里面,只要一次下...原创 2019-01-19 00:09:52 · 605 阅读 · 0 评论 -
慕课实例Python爬虫中国大学排名爬虫总结与思考
from bs4 import BeautifulSoupimport bs4import requestsdef get_html(url): '''获取网页的html源代码的文本字符串''' try: kv = {'user-agent': 'Mozzila/5.0'} # 设立头,提高爬取成功率 r = requests.get(ur...原创 2019-01-15 12:20:16 · 1808 阅读 · 0 评论