![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
笔记
你也太秀了8
这个作者很懒,什么都没留下…
展开
-
统计列表中元素的个数
list = [1,2,4,5,6,7,1,2,6,6]dic = {}for key in list: dic.update({key:list.count(key)})# print {1:2,2:2,4:1,5:1,6:3,7:1}原创 2020-02-19 10:56:34 · 3956 阅读 · 0 评论 -
python requests保存网页文件参数总结
一:r= requests.get(url,headers=headers,stream=True)官方文档:如果你在请求中把 stream 设为 True,Requests 无法将连接释放回连接池,除非你 消耗了所有的数据,或者调用了 Response.close。 这样会带来连接效率低下的问题。如果你发现你在使用 stream=True 的同时还在部分读取请求的 body(或者完全没有读取...原创 2019-12-20 12:13:25 · 781 阅读 · 0 评论 -
有关scrapy频繁报错301、302 HTTP status code is not handled or not allowed的解决方法
我查了一些方法都是在settings里设置停用301 302代码,治标不治本,还是拿不到数据。然后我把settings里的REDIRECT_ENABLED = False这句话删掉,就可以拿到数据了!可能是因为重定向到headers的host地址了?搞不明白。。欢迎大家指正...原创 2019-12-12 10:22:59 · 854 阅读 · 0 评论 -
常用网页正文提取方法总结
最近研究这块内容头发快掉完,写一些东西来梳理梳理,以后写论文可能用得上。1.基于模板的方法依赖html文档内部结构特征来完成数据抽取。常用的一些有正则、xpath、selector css、beautifulsoup等等。优点:针对特定的网页模式,实现简单(可以自己写或者借助半自动工具Google开发者工具、xpath helper插件等),定位准确。缺点:对于不同的网页模式或者网页结构需...原创 2019-08-22 15:02:42 · 2528 阅读 · 1 评论 -
记一篇在sata固态上安装好系统的电脑上加装m2固态硬盘,是如何重装系统的
倒腾了块三星的m2接口固态硬盘,但是死活装不上系统。问了好多人终于解决了,现在总结一下,万一有人用得着。m2固态装好之后正常启动。我用的是大白菜制作工具,按普通的做系统盘的方式做好一个启动盘,上面装好PE。接下来下载镜像,推荐MSDN的ltsc企业win10,都说这个好,跟风总没错。不用放到U盘上,随便放个地方(除了你要写系统的盘)记着路径就行。重启,BIOS上选U盘启动,到PE界面选择w...原创 2019-10-06 21:18:29 · 23709 阅读 · 0 评论 -
python获取网页编码格式
爬虫获取网页内容要准确获取网页的编码格式,有utf-8,gbk,gb2312等等。今天在爬新闻网站时候,发现同一个网页会分不同的编码,但是获取HTML节点相关是根据第一个编码格式来的,拿人民网新闻页源码举例。当我使用python的url = "http://theory.people.com.cn/n1/2019/1001/c40531-31383055.html"r = request...原创 2019-10-07 12:46:22 · 1459 阅读 · 0 评论