python爬虫
小小的圈圈
这个作者很懒,什么都没留下…
展开
-
day02 - Scrapy基本使用2
案例:爬取苏宁易购书城书籍 1.创建爬虫项目 2.创建爬虫文件 3.items文件 4.爬虫文件 5.pipelines文件 6.setting文件原创 2020-05-17 00:27:41 · 139 阅读 · 0 评论 -
day01 - Scrapy 爬虫框架基本使用1
一、 安装Scrapy库遇到的问题 使用pip安装,出现找不到安装包的问题,可能是国内网络的问题,使用国内镜像源加速成 pip install 包名 -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com ...原创 2020-05-14 16:21:00 · 292 阅读 · 0 评论 -
day06 - 爬虫之selenium及验证码基本知识
一、selenium基本操作 加载网页: from selenium import webdriver driver = webdriver.Chrome() driver.get(“http://www.baidu.com/”) driver.save_screenshot(“百度.png”) 定位和操作: driver.find_element_by_id(“kw”).send_key...原创 2020-04-04 23:48:58 · 157 阅读 · 0 评论 -
day05 -爬虫基本流程总结和嗅事百科单/多线程爬虫案列
一、基本流程总结 1.准备url 准备start_url 使用情况:url地址规律不明显,总数不确定 具体做法:通过代码提取下一页的url,可通过 xpath 寻找url地址,部分参数在当前的响应中(比如,当前页码数和总的页码数在当前的响应中) 准备url_list 使用情况:页码总数明确,url地址规律明显 2.发送请求,获取响应 反反爬虫 (1)添加随机的User-Agent,反...原创 2020-04-04 21:26:41 · 163 阅读 · 0 评论 -
day04 - 爬虫之常用Xpath和lxml库的使用
一、常用Xpath 1.获取标签中的文本 a/text() # 获取a标签中的文本 a//text() # 获取a标签下所有标签中的文本 2.获取标签的某个属性值 a/@属性名xxx # 获取a标签中属性xxx的值 3.当前位置开始 //a # 选择页面上所有的a标签 二、lxml中基本知识 1.修正html数据----返回...原创 2020-04-03 17:56:56 · 93 阅读 · 0 评论 -
day03 -数据分析之豆瓣爬虫练习
一、python数据类型与json数据类型转换 json.loads(json字符串) 将json类型转换为字典类型 json.dumps(python类型) 将python类型转换为json类型 json.load(json字符串) 将j类文件对象转换为字典类型 json.dump(python类型) 将json类型转换为类文件对象 注 具有rea...原创 2020-03-27 19:13:35 · 98 阅读 · 0 评论 -
day02 - 爬虫之requests的基本使用
一、发送get请求 response = requests.get(url,[data=data,parment=parment,header=heder]) import requests response = requests.get('http://www.baidu.com/') # 请求百度首页 print(response.status_code) #返回整型数据 ...原创 2020-03-27 12:22:18 · 165 阅读 · 0 评论 -
day01 - 爬虫基础知识
一、爬虫介绍 网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。 总之 只要是浏览器能做的事情,原则上,爬虫都能够做 二、分类 通用爬虫 通常指搜索引擎的爬虫 聚焦爬虫 针对特定网站的爬虫 流程 三、通用搜索引擎局限性 通用搜索引擎所返回的网页里90%的内容无用。 图片、音频、视频多媒体的内容...原创 2020-03-25 17:20:14 · 141 阅读 · 0 评论