![](https://img-blog.csdnimg.cn/2021081523261745.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
Python爬虫
Python爬虫笔记
笼中小夜莺
春招已上岸,梦想是环游世界。
展开
-
常见的爬虫乱码的解决办法
【代码】常见的爬虫乱码的解决办法。原创 2022-09-30 00:20:18 · 1411 阅读 · 0 评论 -
清洗爬虫网页源代码的正文内容
import requestsfrom bs4 import BeautifulSoupdef get_one_detail(url): url = 'http://www.cb.com.cn/index/show/special/cv/cv13425674647' res = requests.get(url).content.decode() soup = BeautifulSoup(res,'lxml') body = soup.find('body')原创 2021-05-01 14:08:56 · 421 阅读 · 0 评论 -
爬虫的中文编码问题
https://blog.csdn.net/weixin_45588852/article/details/106053839原创 2021-04-22 17:02:24 · 115 阅读 · 0 评论 -
Python获取百度百科的人物详情和关系图谱的信息
import pandas as pdimport timefrom selenium import webdriverfrom urllib import parsedriver = webdriver.Firefox()# 获取一个人的详情页def get_one_detail(url): driver.get(url) # 姓名 temp = url.split('/') name = parse.unquote(temp['item'.index(te原创 2021-04-20 05:41:08 · 1314 阅读 · 0 评论 -
python爬取搜狗微信指定关键词的全部内容
整体思路使用webdriver登录并搜索,注意,页面的url并不是文章的真实url,需要使用webdriver进行跳转,同时注意切换窗口的handle函数介绍init()---------->用来初始化,即扫码登陆,有10秒暂停时间get_one_page_data()------------->将某个html界面传进来进行解析,然后传出去spyder()-------------------->开始爬虫,keyword是检索的关键词,from_page是从第几页开始,to_p原创 2021-02-09 22:12:05 · 1531 阅读 · 2 评论 -
爬虫进阶:使用fiddler抓取手机app数据
前期准备手机安装了豆果美食app,安装了fiddler证书,WLAN做了手动代理,手机与电脑在同一局域网下实战开始打开手机,发现请求已经在更新了,我们只需要找就可以了,我们要的数据其实有一定特点,例如host应该是包含douguo这个东西的,然后后看到了api字眼,使用工具栏的find工具,发现找到响应请求了,使用json工具可以解码,找到了有用请求右键给他标记颜色打开fiddler查看请求头和请求体在这里,将https改为http就能正常返回了,经过实验可以删除一些不关紧要的参数,编写代码如原创 2021-02-02 00:14:16 · 1473 阅读 · 1 评论 -
python多进程爬虫与多线程爬虫模板
不需要也没必要过多解释,不懂的可以看我python学习笔记专栏关于多线程与多进程的介绍# 多线程模块from concurrent.futures import ThreadPoolExecutor# 队列模块from multiprocessing import Queuequeue_list = Queue()def init(): [queue_list.put(i) for i in range(5)]def test(data): print(data)if原创 2021-02-01 02:54:42 · 317 阅读 · 0 评论 -
四种方式获取当前电脑的真实IP
不使用Python百度搜索ip地址,找到类似如下图标即是真实ip使用在线工具访问这个页面即可得到自己的真实IP:https://tool.lu/ip/使用Python获取import requestsurl = 'http://ip.hahado.cn/ip'res = requests.get(url).json()print(res['ip'])调用api获取现在各种卖api的很多,推荐这个网站,免费赠送1000条查询使用:https://user.ip138.com/对接原创 2021-02-01 02:06:11 · 3143 阅读 · 0 评论 -
爬虫进阶:电脑软件&手机APP常用的爬虫抓包工具
在学习爬虫进阶路上少不了用到一些抓包工具,今天就给大家隆重推荐6款爬虫抓包神器。聊一聊:爬虫抓包原理爬虫的基本原理就是模拟客户端(可以是浏览器,也有可能是APP)向远程服务器发送 HTTP 请求,我们需要知道目标服务器的 HOST、URI、请求方法、请求参数、请求头、请求体。Web 网站通过 Chrome 浏览器可以找到这些信息。但是对于 APP 爬虫,就显得有些束手无策。这时候必须借用一些抓包工具来辅助我们分析APP背后的秘密。而抓包本质是引入多了一层中间人代理,如下图所示。补充一个知识点,对于新原创 2021-01-31 23:15:21 · 11107 阅读 · 2 评论 -
新浪微博爬虫便携版
需要调整的参数是新冠肺炎和page,返回一页的数据import requestsimport pandas as pdimport jsonimport redef get_one_page(): one_page_data = [] params = { 'containerid': '100103type=60&q=新冠肺炎&t=0', 'page_type': 'searchall', 'page': 1原创 2021-01-27 02:24:56 · 259 阅读 · 0 评论 -
国内外新冠肺炎实时数据爬虫
新冠肺炎实时数据爬虫,国内外都有,获取历史数据以及当天的详细数据原创 2021-01-26 23:47:55 · 1310 阅读 · 0 评论 -
哪些网站可以爬?康康robots协议
最近在做微博爬虫,了解到了robots协议。以前就在思考,为什么都说爬虫从入门到入狱呢?哪些网站哪些信息不能爬呢?今天终于找到了规则。什么是robots协议百度百科的地址在这里https://baike.baidu.com/item/robots%E5%8D%8F%E8%AE%AE/2483797?fr=aladdinrobots协议也叫robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引原创 2020-11-21 21:04:03 · 1290 阅读 · 0 评论 -
python如何获取响应头中的location值
headers=requests.head(url).headers原创 2020-11-14 01:47:41 · 3355 阅读 · 3 评论 -
Python爬虫如何获取重定向之后的url
这个是用抖音做测试的,使用response的url属性,就可以获取重定向的地址import requestsurl='https://v.douyin.com/J2EarSN/'resp=requests.get(url).urlprint(resp)原创 2020-11-14 00:04:16 · 2078 阅读 · 0 评论 -
爬虫webdriver教程汇总
前期准备工作下载python对版本没有特别要求,建议是3.5版本。安装的时候注意勾选下方的Add Python 3.x to PATH安装对应浏览器的webdriver三种webdriver下载地址chromedriver 下载地址:https://code.google.com/p/chromedriver/downloads/listFirefox的驱动geckodriver 下载地址:https://github.com/mozilla/geckodriver/releases/IE原创 2020-10-29 14:59:50 · 3784 阅读 · 1 评论 -
爬虫速成(四):数据存储
我们获取到数据之后,通常不是只输出一下过过眼瘾,而是存储下来,简单介绍一下常用的方式保存为csv文件csv文件的操作类似txt文本,但它显示出来的效果类似Excel表格,是很好用的一种形式。csv文件使用英文逗号作为分隔符号,注意获取的数据有没有英文逗号。除此之外,要记得写入换行符嗷!以我们的例子为例import requestsimport recount=0with open('李清照诗词集.csv','w',encoding='utf-8') as fp: for i in r原创 2020-10-25 13:29:36 · 278 阅读 · 0 评论 -
爬虫速成(三):数据提取(清洗)
三种方式解析工具解析速度使用难度BeautifulSoup最慢最简单lxml快简单正则最快最难Xpathxpath类似于前端的元素选择器,大家感兴趣的去系统学习一下xpath语法,但是既然是速成的,我们就不详细介绍了。建议使用谷歌的xpath插件,名字叫Xpath Helper,我为大家提供了下载地址点击下载开始实验!还是老样子,访问我们例子的网站嗷!以提取标题为例https://so.gushiwen.cn/search.aspx?value原创 2020-10-26 20:53:42 · 992 阅读 · 1 评论 -
爬虫速成(二):数据获取
简单介绍了requests和webdriver的基本用法原创 2020-10-23 13:46:49 · 773 阅读 · 0 评论 -
爬虫速成(一):前言
对python爬虫做了个简单介绍原创 2020-10-25 16:31:29 · 917 阅读 · 1 评论 -
python爬虫:多线程的简单示例与应用
前言python是支持多线程的,主要是通过thread和threading这两个模块来实现的。thread模块是比较底层的模块,threading模块是对thread做了一些包装的,可以更加方便的使用。虽然python的多线程受GIL限制,并不是真正的多线程,但是对于I/O密集型计算还是能明显提高效率,比如说爬虫。详细请见 https://www.zhihu.com/question/23474039 实例下面用一个实例来验证多线程的效率。代码只涉及页面获取,并没有解析出来。# -*-coding原创 2020-10-19 17:45:43 · 844 阅读 · 1 评论 -
个人在python爬虫一些常用的技巧(后期会持续更新)
介绍了常用的爬虫技巧,包括对g-zip的处理等原创 2020-10-18 16:14:20 · 300 阅读 · 0 评论 -
python爬虫:爬取QQ音乐歌曲
描述可以下载QQ音乐免费音乐和绿钻音乐,但是不能下载付费音乐。运行程序后会在同级目录自动创建名为:歌曲下载的文件夹,下载的文件将被放置在此文件夹如果下载的文件大小为1KB,则表示下载失败,这首歌不支持下载源代码如下:# -*- coding: utf-8 -*-import jsonimport osimport requestsheaders = { 'Origin': 'https://y.qq.com', 'Referer': 'https://y.qq.com/p原创 2020-05-25 18:49:53 · 17093 阅读 · 31 评论