2019年09月_brave_heart_lxl

10月 09月

转载分布式爬虫很难吗？用Python写一个小白也能听懂的分布式知乎爬虫

前言很早就有采集知乎用户数据的想法，要实现这个想法，需要写一个网络爬虫（Web Spider）。因为在学习 python，正好 python 写爬虫也是极好的选择，于是就写了一个基于 python 的网络爬虫。几个月前写了爬虫的初版，后来因为一些原因，暂时搁置了下来，最近重新拾起这个想法。首先优化了代码的结构，然后在学弟的提醒下，从多线程改成了多进程，一台机器上运行一个爬虫程序，...

2019-09-25 20:54:52 456

转载大规模爬虫流程总结

爬虫是一个比较容易上手的技术，也许花5分钟看一篇文档就能爬取单个网页上的数据。但对于大规模爬虫，完全就是另一回事，并不是1*n这么简单，还会衍生出许多别的问题。系统的大规模爬虫流程如图所示。先检查是否有API API是网站官方提供的数据接口，如果通过调用API采集数据，则相当于在网站允许的范围内采集，这样既不会有道德法律风险，也没有网站故意设置的障碍；不过调用API接口的访问则处于网...

2019-09-25 18:30:41 274

原创一个月入门PYTHON爬虫，轻松爬取大规模数据

Python爬虫为什么受欢迎如果你仔细观察，就不难发现，懂爬虫、学习爬虫的人越来越多，一方面，互联网可以获取的数据越来越多，另一方面，像 Python这样的编程语言提供越来越多的优秀工具，让爬虫变得简单、容易上手。利用爬虫我们可以获取大量的价值数据，从而获得感性认识中不能得到的信息，比如：知乎：爬取优质答案，为你筛选出各话题下最优质的内容。淘宝、京东：抓取商品、评论及销量数据，对各种商...

2019-09-25 18:22:08 606

滚动截屏工具

可以用于滚动截屏的工具，包括截取滚动网页等，非常好用,装机必备

2013-04-11

qt实例70个,大家多实践

这是一个qt实例的大集合，综合了各个类的使用方法.........

2009-12-04

html入门精通教程

html是编写网站的基础，这是一本入门级别的书籍............

2009-12-04

保护健康－－工作休息提示工具

专为上班族设计的，按时休息提醒工具，包含Qt源码，眼睛累了，休息一下吧

2009-09-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

转载 分布式爬虫很难吗？用Python写一个小白也能听懂的分布式知乎爬虫

转载 大规模爬虫流程总结

原创 一个月入门PYTHON爬虫，轻松爬取大规模数据