![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
风澜舞
断剑重铸之日,骑士归来之时。
展开
-
自定义Mongodb的操作接口
自定义Mongodb的操作接口from pymongo import MongoClientclass MongoAPI(object): def __init__(self, db_name, table_name, host="127.0.0.1", port=27017): self.db_name = db_name self.table_n...原创 2020-04-15 16:29:29 · 2267 阅读 · 0 评论 -
Python爬取新闻列表并保存为xml(读取ini配置文件)
Python爬取新闻列表并保存为xml(读取ini配置文件)一,分析网站目标网站[ http://www.cankaoxiaoxi.com/china/szyw/1.shtml ]爬取深度为21,列表页 2,内容页列表页新闻标题包含在ul>li中,并且在上图红框处有一个li为分割线,所以要对li进行判断,为空则跳过这个li内容页,文章包含在&l...原创 2020-03-03 19:00:43 · 1130 阅读 · 1 评论 -
configparser读取ini配置文件&&xml的读写
configparser读取ini配置文件&&xml的读写一, 读取ini配置文件1, ini配置文件[DATABASE]username=adminpassword=admin123ip=localhostport=3306[USER]username=rootpassword=1232,读取代码import configparsercp ...原创 2020-03-03 11:35:14 · 265 阅读 · 0 评论 -
使用selenium爬取小说以及一些注意事项和坑
使用selenium爬取小说说明:这个网站也可以使用静态方法访问,动态只是练手目标,使用selenium爬取新笔趣阁的一个小说,并下载到本地磁盘一,分析网站1,打开网站,查看一篇文章。获取下一章链接,内容,以及章节名称。2, 分别使用selenium的不同选择方式,进行定位,(当然使用xpath最为简单)3,xpath的一个小技巧(快速确定路径,最好使用以chrome...原创 2020-02-23 10:43:05 · 1218 阅读 · 4 评论 -
Python yield关键简单解析
Python yield关键简单解析1,带有yield关键字的函数,被python解析器,视为一个生成器。2,类似于return关键字,但是return关键字会结束函数的调用,并且在下一次调用函数的时候,该函数会从开头开始。而yield关键字,也会结束该函数,但是该函数为冻结状态,当下次这个函数被唤醒时,会从上次调用的地方,继续向下执行。而不像return一样,从头开始。3,很像...原创 2020-02-17 13:00:10 · 116 阅读 · 0 评论 -
爬虫中关于登录以及登录验证码的简单处理方法
处理登录表单前言:这个测试网站为了避免不必要的麻烦,并没有通过真实网站进行测试,是博主自己搭建的wordpress平台。请大家不要非法使用到正式网站。一,处理没有登录验证的网站。1,使用浏览器的检查功能,获取登录表单的属性2,查看表单需要提交的name属性,即为我们要post提交的部分,分别为以下属性log:账号pwd: 密码rememberme:记住登录信息,默认值...原创 2020-02-13 19:55:42 · 5686 阅读 · 6 评论 -
关于python字符串编码问题
关于python字符串编码问题一,encode和decode1,python默认字符串是使用Unicode编码。2,encode作用是将Unicode编码转换成其他编码的字符串。3,decode是将其他编码的字符串解码为Unicode编码。4,实例unicode_str = "我们是unicode编码"print(type(unicode_str))# unicod...原创 2020-02-12 13:20:26 · 248 阅读 · 0 评论 -
爬虫数据存储csv
爬虫数据存储csv一,csv文件的简单读写import csv# CSV也叫逗号分分隔,一般以逗号分隔,也可以使用空格或者tab分隔csv_file = open("file/test.csv", "w+")# 写入try: csv_write = csv.writer(csv_file) csv_write.writerow(("col1", "col2", "co...原创 2020-02-11 21:40:49 · 1913 阅读 · 0 评论 -
简单的反反爬虫技巧(faker库更换请求头&&设置间隔时间)
简单的反反爬虫技巧(1)一,更换请求头。1,当我们使用requests库获取网页时,如下面:import requestsurl = r"https://www.plmm.com.cn/chemo/"resp = requests.get(url)print(resp.request.headers)2,就会发现输出为:{'User-Agent': 'python-re...原创 2020-02-08 18:11:10 · 1309 阅读 · 0 评论 -
python爬虫分析冰雪奇缘影评,并对关键字生成词云
python爬虫分析冰雪奇缘影评,并对关键字生成词云1,从豆瓣电影上进行爬取影评,并保存为bxqy.csv文件import requests;from lxml import etreeimport timeurl = "https://movie.douban.com/subject/25887288/reviews?start=%d"'''使用ctrl+r键进行替换,使用(.*?...原创 2019-12-28 11:20:12 · 1132 阅读 · 2 评论