爬虫
不食人间烟火的阿琨
学裂开了
展开
-
关于使用pytharm导入etreem 模块问题
关于python 中编辑器pycharm导入不了etree模块问题昨天在运用pycharm 导入模块lxml 的etree 时总是报错:今天我问了一个大佬,他说看看你的etree 的路径在哪:于是在IDLE中 from lxml importetreeprint(etree.file) 发现文件在盘:到这里我才知道原因,原来我pycharm一直在E盘这说明我的电脑里面有2个PY...原创 2018-12-04 20:36:34 · 1305 阅读 · 0 评论 -
django.db.utils.OperationalError: no such table: news_column
django.db.utils.OperationalError: no such table: news_column首先这是因为数据库中找不到表了,很奇怪的我已经做了migrate迁移了,但是数据库中还是没有生成表,后来找到问题所在在models.py `中找到class Meta:如图:这样就行了。当managed = False 的时候不会进行数据迁移操作,如果忘记了就生成不了表了...转载 2019-03-05 20:55:29 · 2591 阅读 · 0 评论 -
网络爬虫之数据解析模块
知识点 ## note 聚焦爬虫:爬取页面指定页面内容 -编码流程: —指定url -发起请求 -获取数据 -数据解析 -持久化存储数据解析分类-正则-bs4-xpath()数据解析原理概述-解析局部内容在指定标签内或则标签内部属性存储(大部分)-1.指定标签定位-2.标签对应属性中存储的数据值进行提取(解析)#bs4进行数据...原创 2019-10-10 19:20:11 · 377 阅读 · 0 评论 -
爬虫requests高级模拟登录
知识点## note模拟登陆:-爬取基于某些用户得用户信息。需求:对人人网进行模拟登录-点击登陆按钮发起一个POST请求-psot请求携带登陆之前登陆的相关信息(用户,密码,验证码~~~~~~)–验证码:每次都会动态变化HTTP/HTTPs协议无状态。没有请求到对应页面得原因:发起第二次基于个人主页请求时候,服务器端不知道请求cookie:-手动处理:通过抓包工具获取c...原创 2019-10-10 19:23:11 · 278 阅读 · 0 评论 -
异步爬虫
知识点## note高性能异步爬虫:目的:在爬虫中使用异步实现高性能数据爬取操作异步爬虫的方式:-多线程,多进程:(不建议)-好处:可以为相关阻塞操作单独开启线程或进程,阻塞操作就可以异步执行。-弊端:无法无限制开启多线程或多进程。-线程池,进程池:(适当)-好处:降低系统对进程或线程创建和销毁的频率,从而降低系统开销。-弊端:池中线程和进程数量是有上限。-单线程——异步协...原创 2019-10-10 19:35:05 · 248 阅读 · 0 评论