spider
文章平均质量分 82
threegirl
这个作者很懒,什么都没留下…
展开
-
使用python下载新浪博客
7个月前的一篇todo-list:一个下载新浪博客工具的to-do list 今天终于可以说是完工了。 代码链接 主要的技术点: 使用urllib和urllib2获取网页内容 使用BeautifulSoup和re来解析网页内容 编码思路: 一、获取博文列表 我想要下载的目标博客:缠中说禅的博客 分析此博客,发现点击“博客目录”后可获取较调理的信息: 屏幕快照 2015-09-08...原创 2015-09-08 01:02:00 · 457 阅读 · 2 评论 -
一个人人网python爬虫
background 不知道现在还有多少人在使用人人网,但是在我刚上大学的时候人人网还有开心网还是很火的,然而它们都相继死去了。倒是高中时喜欢玩的QQ空间依旧风生水起。 但是毕竟在人人网上留下了很多东西,将来一不小心人人网关掉了(这种可能我感觉越来越大,毕竟资本市场不会说谎),这些东西丢掉岂不是很可惜? 每天发生的各种琐事,你此时弃之如敝屐,珍之如瑰宝,在不久的将来会化作一串串珍珠,让人凭吊...原创 2015-09-19 22:08:00 · 221 阅读 · 7 评论 -
用python实现模拟登录人人网
我决定从头说起。懂的人可以快速略过前面理论看最后几张图。 web基础知识 从OSI参考模型(从低到高:物理层,数据链路层,网络层,传输层,会话层,表示层,应用层)来说,我们的互联网属于应用层。从TCP/IP参考模型(从低到高:物理层,数据链路层,网络层,传输层,应用层)来说,也同样如此。 互联网上有各种各样的资源,包括文本、图片、音频、视频…… 通常所见的Web模型需要包括两部分:客户端,...原创 2015-09-20 01:09:00 · 1322 阅读 · 28 评论 -
简单使用python多进程并发下载大量图片
如果有大量图片想要下载,肯定希望速度越快越好,那么就要使用多任务。 python支持多线程和多进程。但是解释器中的GIL锁导致任何Python线程执行前,必须先获得GIL锁,然后,每执行100条字节码,解释器就自动释放GIL锁,让别的线程有机会执行。所以多线程并不能达到理想的效果。 使用多进程的话,mutilprocessing是个很好用的库。如果是一个进程一个进程的创建,使用其中的Proce...原创 2015-10-25 13:40:00 · 1490 阅读 · 19 评论 -
关于BeautifulSoup的总结
最近一直在用BeautifulSoup,但是语法很容易忘记。在这里做个学习总结吧。 参考: Beautiful Soup 4.2.0 文档 功能 BeautifulSoup是用来从HTML或XML中提取数据的Python库。 导入 使用方法:from bs4 import BeautifulSoupsoup = BeautifulSoup(html) 编码 soup使用Unic...原创 2016-04-02 16:37:00 · 389 阅读 · 0 评论