- 博客(3)
- 收藏
- 关注
原创 对反爬的处理
对反爬的处理总结(未完,待补)初级反爬中级反爬高级反爬 初级反爬 初级反爬无非就是设置headers,cookies,等 这样的反爬策略是最常见的,下面是一些对于初级反爬的总结 headers里面有几个参数是值得注意的: referer: 标识你从哪一个地址跳转过去的 cookie 里面有些用户信息等,很多需要登录才能访问的网站或者是一些电商网站使用这个来进行反爬的,当里面的信息过时之后,网站就会把你重定向到登录界面。你可以定期更换cookie,这就可以降低反爬的概率了。 user-agent
2021-06-09 14:20:24 270
原创 xpath语法的使用
xpath语法总结在谷歌浏览器安装xpath插件xpath实战 在谷歌浏览器安装xpath插件 可以在网上找一下这个插件。 打开浏览器的扩展程序页面,将上面的那个xpath压缩包直接拖进去就可以了。 xpath实战 找到要获取的节点,右键找到copy xpath,这样就获取到了节点了的xpath了://[@id=“J_selector”]/div[1]/div/div[2]/div[2] 之后获取那些各个品牌的链接或者名字 例如: //[@id=“J_selector”]/div[1]/div/div
2021-06-09 13:41:35 220
原创 scarpy框架的初级使用
Scrapy框架初识1、创建爬虫项目2、打开爬虫项目3、编写爬虫,以爬取链家二手房信息为例4、setting中的一些设置 1、创建爬虫项目 进入到你向放置项目的文件夹 按住shift点击右键,选择在此处打开power shell窗口 在命令行中创建爬虫项目: scrapy startproject 项目名 按照提示进入项目文件夹:cd 爬虫文件夹 创建爬虫文件:scrapy genspider 爬虫文件名 爬取的域名 2、打开爬虫项目 1、用pycharm打开项目 2、打开之后是这样的 3、
2021-06-09 11:27:28 206
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人