python爬虫
文章平均质量分 51
菜鸟中的Big菜鸟
这个作者很懒,什么都没留下…
展开
-
Scrapy框架的安装+在Pycharm中项目的创建
scrapy框架的安装pip install wheel下载twisted,下载地址为http://www.lfd.uci.edu/~gohlke/pythonlibs/#twistedpip install pywin32pip install scrapy测试:在终端里录入scrapy指令,没有报错即表示安装成功!。安装过程中遇见的错误‘scrapy’ 不是内部或外部命令,也不是可运行的程序因为没有配置系统变量解决办法在编辑中添加scrapy的地址即可项目的创建原创 2021-02-09 15:53:50 · 201 阅读 · 0 评论 -
异步爬虫-协程实现
单线程+异步协程事件循环:event_loop 相当与一个无限循环,可以把我们的任务或者协程对象放进去。loop = asyncio.get_event_loop() //获得事件循环协程对象:我们可以将协程对象注册到事件循环中,会被事件循环 调用。task/future任务:对协程对象的进一步封装,包含任务的各个状态。区别生成的方式不同task = asyncio.ensure_future('c)task = loop.create_task('c)协程函数 :通过def原创 2021-02-06 16:47:06 · 332 阅读 · 0 评论 -
request高级-模拟人人网的登录
模拟登录获取某些用户的信息需求:点击人人网进行模拟登录。- 点击登录按钮之后会发起一个post请求- post请求中会携带登录之前录入的相关的登录信息(用户名,密码,验证码......)- 验证码:每次请求都会变化需求:爬取当前用户的相关的用户信息(个人主页中显示的用户信息)http/https协议特性:无状态。没有请求到对应页面数据的原因:发起的第二次基于个人主页页面请求的时候,服务器端并不知道该此请求是基于登录状态下的请求cookie:用来让服务器端记录客户端的相关状态。原创 2021-02-05 12:20:08 · 148 阅读 · 0 评论 -
Xpath解析
xpath解析:最常用且比较便捷的一种解析方式。通用性xpath解析原理:–1.实例化一个etree对象,且将且需要将解析的页面的数据加载到该对象中。–2.调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获。环境的安装1.cmd方法pip install lxml直接在pycharm中直接安装(更简单)如何实例化一个对象–1.将本地文档中的源代码加载带etree对象中:etree.parse(‘fileName’)–2.可以从互联网上获原创 2021-02-04 19:38:28 · 660 阅读 · 0 评论 -
BS4应用+实例
bs4进行数据解析-进行数解析的原理:标签定位提取标签,标签中属性的值-bs4数据解析的原理:实例化一个beautifulSbeoup的对象,并且将相关源码加载到对象中。通过调用beautifulSbeoup对象中的相关方法进行标签的定位和数据的提取。-环境的安装pip install bs4pip install lxml-如何实例化对象:from bs4 import BeautifulSoup对象的实例化将本地的html文档中的数据加载到该对象中fp= op原创 2021-02-04 10:54:12 · 575 阅读 · 2 评论