
Python爬虫
文章平均质量分 77
Congee小周
天津大学研究生,研究方向高性能计算,欢迎点赞关注与我交流!
展开
-
【零基础学爬虫】第五章:scrapy数据解析实战(二)
一、项目准备1.创建工程scrapy startproject qiubaiPro2.创建爬虫文件需求:爬取糗事百科中“段子”栏中的数据:https://www.qiushibaike.com/text/,解析作者名称+段子内容。cd qiubaiProscrapy genspider qiubai https://www.qiushibaike.com/text/...原创 2021-03-04 11:14:14 · 461 阅读 · 1 评论 -
【零基础学爬虫】第四章:selenium模块使用
一、初识selenium①selenium是基于浏览器自动化的一个模块,便捷的获取网站中动态加载的数据(之前文章中使用的ajax方法,很麻烦),便捷实现模拟登录(自动打开网页,进行一系列的点击操作)。二、selenium使用流程①安装selenium由于我使用的是anaconda,因此自带selenium。②下载一个浏览器的驱动程序(谷歌浏览器)下载路径:http://chromedriver.storage.googleapis.com/index.html驱动程序和浏览器的映原创 2021-02-21 19:10:32 · 730 阅读 · 0 评论 -
【零基础学爬虫】第五章:scrapy框架的使用(一)
一、安装scrapy①我使用anaconda安装,步骤如下:注意:如果手动pip安装,需要安装很多依赖包,所以用anaconda很方便conda install scrapy②输入scrapy,检测安装成功!原创 2021-02-21 18:49:31 · 356 阅读 · 0 评论 -
【零基础学爬虫】第三章:模拟登陆中的cookie存储和代理理论
一、cookie处理当我们爬取网页中的数据时,大多数网站都是需要登陆的,登陆时输入的信息会被存储在cookie中。如果我们想要获取一些登录后才有的信息,我们必须要用到cookie。本文主要讲cookie和代理理论,至于在登陆过程中碰到需要输入验证码的问题在另一篇文章中单独讲解。假设,我们现在想要爬取登陆后个人信息,由于http/https协议特性:无状态,发起的第二次基于个人主页页面请求的时候,服务器端并不知道该此请求是基于登录状态下的请求。因此使用cookie,用来让服务器端记录客户端的相关状态。原创 2021-02-20 18:55:32 · 415 阅读 · 0 评论 -
【零基础学爬虫】第二章:3个xpath实战案例
1.案例1需求:爬取58二手房中的房源信息(标题)https://bj.58.com/ershoufang/发现爬取规律:import requestsfrom lxml import etree# 需求:爬取58二手房中的房源信息if __name__ == "__main__": headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36原创 2021-02-02 12:43:51 · 474 阅读 · 3 评论 -
【零基础学爬虫】第二章:聚焦爬虫和数据解析
一、聚焦爬虫1.聚焦爬虫定义聚焦爬虫就是爬取页面中指定的页面内容。2.编码流程: - 指定url - 发起请求 - 获取响应数据 - 数据解析 - 持久化存储二、数据解析1.数据解析分类①正则②beautifulsoup4③xpath(重点)2.数据解析原理概述:解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储 - 1.进行指定标签的定位 - 2.标签或者标签对应的属性中存储的数据值进行提取(解析)...原创 2021-01-31 10:24:16 · 1238 阅读 · 0 评论 -
【零基础学爬虫】第一章:了解python中的requests库
前言从今天开始,博主将准别写15篇左右文章带领大家学习爬虫,爬虫其实并不难,坚持本博客的学习就可以上手做项目啦!需要注意的是,建议大家熟练使用Google浏览器,并且学会查看后台源码和抓包程序,这是在学习爬虫中必不可少的过程,如果不会的话可以与我讨论!本文主要介绍一些爬虫的基本概念,并教大家学会编写最简单的爬虫程序。由于篇幅受限,以总结经验为主,若有问题欢迎在评论区留言讨论!看过的小伙伴们别万关注+点赞+收藏呀!一、爬虫介绍1.什么是爬虫?通俗来说,爬虫就是通过编写程序,模拟浏览器上原创 2021-01-30 17:32:07 · 715 阅读 · 0 评论