爬虫
ch_zs
这个作者很懒,什么都没留下…
展开
-
爬京东
import csvimport requestsfrom lxml import etreefrom pymongo import MongoClientclass Pa_jd(): def __init__(self): self.keyword = str(input('输入搜索内容')) self.num = int(input('爬取几页?')) self.list1 = [] self.host = '127.0原创 2020-11-10 20:04:54 · 679 阅读 · 0 评论 -
数据爬取的概念和分类
爬虫中数据的分类在爬虫爬取到数据中有很多不同类型的数据, 根据数据的不同类型有规律的提取和解析数据结构化数据 :json , xml等处理方式 : 直接转化为python类型非结构化数据 : HTML处理方式:正则表达式,xpath,BS4结构化 :json数据的转换#请求json数据json_str = r.content.decode()# 转化为python的对象python_dict = json.loads(json_str)# 逆操作(将python字典原创 2020-11-10 15:20:34 · 1672 阅读 · 0 评论 -
python 爬虫入门学习
Python 爬虫学习requests 模块目录:1. requests模块的认识2 requests发送get请求3. requests获取响应数据4. requests发送带headers的请求5. requests发送带参数的请求6. requests发送POST请求7. requests使用代理8. requests处理cookie内容一 requets 模块的认识使用 requests 模块能够解决绝 大部分 的爬取数据的任务就下载之后 用就完了pycharm原创 2020-11-09 21:22:30 · 234 阅读 · 0 评论 -
Python 爬虫入门学习 处理cookie
requests 处理 cookie一 :引入为了能够通过爬虫获取到登录后的页面,或者是解决通过cookie的反扒,需要使用request来处理cookie相关的请求二 :爬虫中使用cookie的利弊带上cookie的 好处能够访问登录后的页面能够实现部分反反爬带上cookie的 坏处一套cookie往往对应的是一个用户的信息,请求太频繁有更大的可能被对方识别为爬虫那么上面的问题如何解决 ?使用多个账号 哈哈三、发送请求时添加cookie有 3 种方法:cookie字符原创 2020-11-09 21:20:48 · 469 阅读 · 1 评论