网络爬虫
youaresherlock
江湖人称狗哥!
展开
-
python爬取阳光问政
address使用了requests库以及lxml作为数据提取库这个网站似乎没有做前后端分离,但是没有做数据加密以及反爬措施,所以可以很简单的爬取#!usr/bin/python# -*- coding:utf8 -*-"""http://wz.sun0769.com/political/index/politicsNewest?id=1&page=1"""import timeimport jsonimport requestsfrom lxml import etre.原创 2020-09-16 09:18:22 · 377 阅读 · 0 评论 -
python爬取金色财经信息
这个爬虫比较简单,不需要用一些常用的数据提取库比如bs4(beautiful)以及lxml库或jsonpath需要注意的是下拉加载使用的是ajax异步请求局部刷新,返回的直接是json数据,里面拥有所有需要的数据,并且没有加密措施,这样我们直接使用requests库进行爬取就可以了.需要找到下拉加载刷新的规律,主要就看前一个响应的bottom_id,作为下一个请求的information_id的查询字符串参数.address#!usr/bin/python# -*- coding:utf8 .原创 2020-09-15 10:10:23 · 714 阅读 · 0 评论 -
python爬取小说信息(对于数字加密的反爬)
以起点为例, 爬取过程中需要注意的就是对于数字加密的反爬,我们需要找到加密的字体,找到0-9对应的映射关系,生成一个映射的字典,就可以方便的爬取了#!usr/bin/python# -*- coding:utf8 -*-"""url https://www.qidian.com/all?chanId=21&subCateId=8"""import reimport jsonimport requestsfrom lxml import etreefrom fontToo.原创 2020-09-14 20:45:56 · 868 阅读 · 0 评论 -
python爬取有道翻译(最新)
打开有道翻译的页面,我们先打开谷歌浏览器的开发者工具,切换到 network 抓包工具,然后在翻译中输入要翻译的内容,寻找翻译的url地址我们发现,此请求为 POST 请求,既然是 POST 请求,那么我们肯定要找到对应的 请求体 参数,不变的参数from: AUTOto: AUTOsmartresult: dictclient: fanyideskwebbv: b286f0a34340b928819a6f64492585e8doctype: jsonversion: 2.1.原创 2020-09-13 18:04:26 · 1547 阅读 · 2 评论 -
python爬取创业文章标题图片
爬虫获取36kr首页的新闻列表的文章内容网址:36kr获取文章字段:标题标题对应的url地址标题对应的图片最后保存: 把所有文本保存为json文件 把图片保存到本地的目录中import osimport reimport jsonimport requestsfrom jsonpath import jsonpathclass KrSpider(object): def __init__(self): self.url = 'h.原创 2020-09-12 09:51:43 · 142 阅读 · 0 评论 -
python爬取段子
糗事百科段子爬取https://www.qiushibaike.com/text/page/1/selenium和requests和lxml两种方法#!usr/bin/python# -*- coding:utf8 -*-import timefrom selenium import webdriverclass QiuBaiSpider(object): def __init__(self): self.url = 'https://www.qiushib.原创 2020-09-12 09:50:39 · 236 阅读 · 0 评论 -
python爬取百度贴吧
获取贴吧的每个标题以及图片确定url地址 url: https://tieba.baidu.com/f?kw={}确定抓取的数据的位置 抓取数据的时候 先对数据进行分组 遍历提取数据分组拿到li列表 //li[@class=’’]从列表页中进入到详情页中 对详情页的url地址发送请求提取图片 //img[@class=‘BDE_Image’]import osimport timeimport requestsfrom lxml import etreec.原创 2020-09-12 09:47:43 · 1263 阅读 · 0 评论 -
python爬取军事新闻网站
使用了requests和BeautifulSoup库文档地址: requestsbs4#!usr/bin/python# -*- coding:utf8 -*-"""https://mil.news.sina.com.cn/roll/index.d.html获取”中国军情“N页的爬虫,写入json文件中, 每一页的数据写入一个json文件"""import osimport jsonimport requestsfrom bs4 import BeautifulSoupc.原创 2020-09-09 20:10:09 · 1257 阅读 · 0 评论 -
Python3 windows系统安装Scrapy
可能大家在学习爬虫scrapy框架的时候,需要在Python3使用Scrapy框架(大多数教程和书籍的案例都是2.7),我们所做的工作都是为了"懒",接下来让我给大家简单说明如何在windows操作系统上安装scrapy吧。系统: windows python版本: python3.6.2 32位小伙伴们可以在https://doc.scrapy.org/en/1.2/intro/infs原创 2018-01-07 20:09:04 · 333 阅读 · 0 评论 -
Python爬取百度贴吧图片
今天我们来举个一个非常简单的例子,教大家如何爬取百度贴吧的图片首先访问多个百度贴吧url,浏览器选择开发者选项或者审查元素,查看url的特征,可以看到所有的url有一部分都是https://tieba.baidu.com/p/十个数字开头的,后面随着贴吧页数的增加出现?pn=1, ?pn=2这样的格式,所以这样子就可以开始着手写代码了。 下面是查看网页源代码的图片 下面是代码的部分# -*-原创 2018-01-03 15:36:45 · 883 阅读 · 0 评论 -
Python抓一个网页上的所有图片
这个是爬虫的入门,因此没有用到深度优先和广度优先算法,只是简单的抓取一个页面上的所有图片思路:1.首要步骤就是要知道这个网页的网址和这个网页的html代码,你可以在firefox、chrome中使用开发者工具或者鼠标右键选择审查元素查看代码2.查看你要找的图片的格式,使用正则表达式表达出来,然后开始写代码其中的dir你可以根据你的需要来自己设置# -*- coding: utf原创 2017-11-04 09:13:34 · 3446 阅读 · 1 评论