爬取知乎所有专栏文章

最新推荐文章于 2024-06-15 08:32:50 发布

小马AAA

最新推荐文章于 2024-06-15 08:32:50 发布

阅读量1.7k

点赞数

分类专栏：爬虫实战文章标签： python xpath

本文链接：https://blog.csdn.net/qq_45796631/article/details/103997731

版权

由于难度不高，且自己练手，所以没写多少注释，我大致说下思路

一般来说爬取一个网站就是那么几步走

1.先使用浏览器逛一逛想爬取的网站，找找规律
2.直接发一个傻瓜式请求，试一下能不能获取到想要的数据，万一就得到了呢
3.不行的话，换一下请求头中的User-Agent字段
这边推荐大家一个模块 – fake_useragent
安装： pip install fake_useragent 直接使用pip安装就可以
使用：导入模块中的UserAgent类创建实例对象，再用对象去点一个random属性就可以了
ua = UserAgent()
headers = {‘User-Agent’: ua.random}
这个模块使用简单便捷，每次调用random属性都会返回一个随机的请求头
4.要是换头还不行，把浏览器中的headers全复制来做一个字典
5.要是还不行，那就是登录状态之类的问题了，打开浏览器的设置查看一下哪个cookie是用于保存当前网站登录状态的
6.还不行，试试代理ip
7.再不行，那就是js加密了

当然了，不管怎么处理，一定要先看看人家浏览器发的是啥请求，是get还是post，不然只能是一步错步步错

import requests
from lxml import etree
import MySQLdb

conn = MySQLdb.connect(
    user = 'root',
    password = '123456',
    host = 'localhost',
    db = 'spider',
    charset = 'utf8',
    port

最低0.47元/天解锁文章

小马AAA

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
爬取知乎所有专栏文章

由于难度不高，且自己练手，所以没写多少注释，我大致说下思路一般来说爬取一个网站就是那么几步走1.先使用浏览器逛一逛想爬取的网站，找找规律2.直接发一个傻瓜式请求，试一下能不能获取到想要的数据，万一就得到了呢3.不行的话，换一下请求头中的User-Agent字段这边推荐大家一个模块 – fake_useragent安装： pip install fake_useragent 直接使用p...
复制链接

扫一扫

专栏目录