![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python爬虫项目集合
该专栏专门存放自己所有写过的爬虫
LovelessLord
这个作者很懒,什么都没留下…
展开
-
爬取学习强国视频小示例
requests库爬取视频原创 2024-04-06 02:15:54 · 787 阅读 · 0 评论 -
常见的请求头的用户代理User-Agent汇总
1. PC端User-Agent# 百度"Mozilla/5.0 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html) safari 5.1 – MAC",# safari 5.1 – MAC (Safari是苹果计算机的操作系统Mac OS中的浏览器)"Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (K原创 2022-05-19 19:05:28 · 1467 阅读 · 0 评论 -
1-11 requests模块之爬取简历模板(xpath解析)
# 目标网站:https://sc.chinaz.com/jianli/free.htmlfrom lxml import etreeimport requests# 获取网页源代码:def get_page_source_code(url): headers = { "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/原创 2022-04-12 10:06:31 · 214 阅读 · 0 评论 -
1-9 requests模块之爬取4k高清壁纸(xpath解析)
# 需求:解析下载图片数据# 网站:https://pic.netbian.com/4kdongman/import requestsfrom lxml import etree# 请求主页面,获取主页源代码:def get_main_page_souce(url): headers = { "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Ge原创 2022-04-11 19:43:17 · 1618 阅读 · 0 评论 -
1-6 requests模块之爬取化妆品生产许可证
1. 代码一:# 视频网址:https://www.bilibili.com/video/BV1ha4y1H7sx?p=11&spm_id_from=pageDriver# 爬取的网址主页:http://scxk.nmpa.gov.cn:81/xk/import csvimport requestsimport time# 请求为post请求# data-url: http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?meth原创 2022-04-10 19:04:57 · 548 阅读 · 3 评论 -
1-2 requests模块之简单的网页采集器
根据关键词,爬取百度搜索后的网页源代码。import requests# User-Agent(请求载体的身份标识)# UA检测:门户网站的服务器会检测对应请求的载体身份标识,如果检测到请求的载体身份标识为某一款浏览器,说明该请求是一个正常的请求。但是,如果检测到请求的载体身份标识不是某一款浏览器的,则表示该请求为不正常请求(即爬虫),则服务器很有可能拒绝该次请求。# UA伪装:让爬虫对应的请求载体身份标识伪装成某一款浏览器。if __name__ == '__main__': # .原创 2022-04-10 18:44:04 · 261 阅读 · 0 评论 -
1-1 爬取搜狗搜索首页的页面源代码
import requestsif __name__ == "__main__": # 1. 指定url: url = "http://sogou.com/" # 2. 发起请求: resp = requests.get(url=url) resp.encoding = "utf-8" # 3. 获取响应数据:.text返回的是字符串形式的响应数据 html = resp.text # 4. 持久化存储数据: with open(原创 2022-04-10 18:39:07 · 599 阅读 · 0 评论