Python爬虫
文章平均质量分 58
rjbp40ht
学无止境,多多指教
展开
-
一种便捷的爬虫方法
1.在“检查-Network”要模拟的post请求记录右键-Copy-Copy as cUrl(bash)如是get请求将.json()去掉再用解析库解析即可。2.替换下面代码中文本内容,搞定。发现了种快捷的爬虫方法。原创 2023-09-24 04:22:08 · 1309 阅读 · 0 评论 -
Python爬虫——Scrapy Spiders
Scrapy Spidersspider是定义一个特定站点(或一组站点)如何被抓取的类,包括如何执行抓取(即跟踪链接)以及如何从页面中提取结构化数据(即抓取项)。换言之,spider是为特定站点(或者在某些情况下,一组站点)定义爬行和解析页面的自定义行为的地方。抓取周期:生成对第一个URL进行爬网的初始请求,然后指定一个回调函数,该函数使用从这些请求下载的响应进行调用 要执行的第一个请求是通过调用start_requests()(默认)生成的方法Request对于中指定的URL...原创 2020-09-03 10:53:59 · 549 阅读 · 0 评论 -
Python爬虫——Scrapy选择器用法
Scrapy选择器用法官方测试页面:https://docs.scrapy.org/en/latest/_static/selectors-sample1.htmlHTML代码:<html><head> <base href="http://example.com/"> <title>Example website</title> <style type="text/css" abt="234"></sty原创 2020-09-02 21:37:32 · 437 阅读 · 0 评论 -
Python爬虫——Scrapy框架的基本使用
Scrapy基本用法1.选取目标站点目标站点分析http://quotes.toscrape.com/:scrapy官方提供的抓取网站显示名人名言,作者,标签等信息翻页为最简单的GET请求,通过改变URL的名称进行翻页网页结构简单,没有任何的反爬虫措施2.流程框架抓取第一页请求第一页的URL并得到源代码,进行下一步的分析获取内容和下一页链接分析源代码,提...原创 2019-06-12 21:43:08 · 636 阅读 · 0 评论 -
Python爬虫——Selenium库的基本使用
自动化测试工具,支持多种浏览器。爬虫中主要用来解决JavaScript渲染的问题基本使用from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.keys import Keysfrom selenium.webdriver.su...原创 2019-01-23 16:38:02 · 7616 阅读 · 2 评论 -
Python爬取未上映电影的豆瓣评分及评论
在豆瓣电影中,未上映电影的点映综合评分是不显示的,就需要爬取所有的评分取平均值,也可爬取用户和评论。这里选取未上映的流浪地球import requestsfrom bs4 import BeautifulSoupnames,stars,texts=[],[],[]ch = {'力荐':5,'推荐':4,'还行':3,'较差':2,'很差':1}star = {1:0,2:0,...原创 2019-01-28 11:25:16 · 892 阅读 · 0 评论 -
Python爬虫——PyQuery库的基本使用
目录初始化字符串初始化URL初始化文件初始化基本CSS选择器查找元素子元素父元素兄弟元素遍历单个元素获取信息获取属性获取文本DOM操作addClass、removeClassattr、cssremove其他DOM方法伪类选择器官方文档API可以在JQuery和PyQuery间做无缝的迁移初始化字符串初始...原创 2019-01-21 20:16:09 · 1555 阅读 · 0 评论 -
Python爬虫——BeautifulSoup库的基本使用
目录基本使用标签选择器选择元素获取名称获取属性获取内容嵌套选择子节点和子孙节点父节点和祖先节点兄弟节点标准选择器nameattrs用attrs:不用attrs(更加方便):textfind(name,attrs,recursive,text,**kwargs)find_parents() find_parent()find...原创 2019-01-20 17:22:06 · 1642 阅读 · 0 评论 -
Python爬虫——requests库的基本使用
目录什么是Requests——Python实现的简单易用的HTTP库实例引入请求基本GET请求基本写法带参数的GET请求解析json获取二进制数据添加headers基本POST请求响应response属性高级操作文件上传获取cookie会话维持代理设置超时设置异常处理在使用urllib库的不方便的地方:加代理或处理co...原创 2019-01-19 16:27:27 · 2244 阅读 · 0 评论 -
Python爬虫——urllib库的基本使用
目录什么是Urllib urlopen以GET形式发送请求,获取响应体的内容以POST方式发送请求判断错误类型是否为超时响应(response)响应类型状态码,响应头Request(传递Headers)结果与例一一致方法一方法二HANDLERCookie获取Cookie保存Cookie读取Cookie异常处理URL解析...原创 2019-01-18 20:46:04 · 1743 阅读 · 0 评论 -
爬虫基本原理和概念
目录 爬虫基本流程1.发起请求2.获取相应内容3.解析内容4.保存数据Request&ResponseRequest中包含什么1.请求方式2.请求URL(统一资源定位符)3.请求头(请求的配置信息)4.请求体Response中包含什么1.响应状态2.响应头3.响应体能抓怎样的数据解析方式保存数据爬虫基本流程...原创 2019-01-17 19:59:05 · 2025 阅读 · 0 评论 -
Python——爬取B站科技区排行并把数据存入Excel
Python——爬取B站科技区排行并把数据存入Excel本代码可将B站的科技区的top100爬取下来,并将其数据存储到Excel文件中,可用于多种场合。 需要的库: - requests 用于请求连接到特定网站 - BeautifulSoup 分析,处理得到的HTML代码 - xlwt 将得到的数据存入Excel - time 延时下载直接在命令行...原创 2018-07-31 21:54:50 · 3085 阅读 · 1 评论