大毛毛毛毛要开花-CSDN博客

原创 scrapy | scrapy-redis实现分布式爬取：原理，实战案例（虚拟机）

1.概念：分布式爬虫由于需要爬取的数据量大，任务多，一台机器效率太低，需要多台机器共同协作处理。分布式爬虫将多台主机组合起来，共同完成一个爬取任务，快速高效地提高爬取效率。分布式爬虫可以分为若干个分布式层级，不同的应用可能由其中部分层级构成。大型分布式爬虫主要分为以下3个层级：分布式数据中心、分布式抓取服务器及分布式爬虫程序。整个爬虫系统由全球多个分布式数据中心共同组成，每个数据...

2018-08-25 23:35:26 6841

原创利用多进程爬取拉勾网全站招聘信息（非scrapy）

1.目标爬取拉勾网职位基本信息，并保存至mongoDB数据库2.环境需求requests lxml pymongo bs43.思路分析3.1 全站爬取分为两部分：1.抓取拉勾首页大类的网址，保存至数据库中；2.根据大类的网址抓取每条职位的信息；3.2 具体分析3.2.1 首页分析首页分析 3.2.2 职位页分析例如打开Java : http...

2018-08-25 18:56:09 405

原创 scrapy | 爬取伯乐在线全部博文（xpath/css/itemload三种提取方法，同步、异步方式存入MySQL）

1.目标伯乐在线网站地址：http：//blog.jobbole.com/all-posts/ 爬取伯乐在线的所有文章信息，包括图片网址，标题，发表日期，标签，点赞数，评论数等将爬取的数据保存至数据库（同步，异步两种方式）2.环境需求python 3.6 MySQL scrapy 1.53.思路分析对列表页抓取文章网址和封面图片的网址，并获取下一页网址进行...

2018-08-22 21:08:31 1609

中国消费新趋势报告：中国消费市场规模到2021年将增近2万亿美元.pdf

中国消费新趋势报告-阿里研究院。尽管经济增速有所放缓，但在可见的未来，中国依旧将是世界上增长最快的消费者市场之一。三大新兴力量——上层中产及富裕阶层消费者、新时代消费者以及网络购物将引领中国消费新经济。伴随这三大力量的兴起，消费者需求、消费行为和生活方式也都发生了变化。随着全球化趋势和媒体、品牌等信息的广泛普及，消费者的需求和偏好不断趋于个性化、精细化。因此，比如“单身族”、“银发族”在内的新细分客群在中国消费市场不断涌现。这些新客群都有截然不同的需求，渴望定制化、个性化的产品与服务。追求绿色生活、智能化等新的消费趋势也应运而生。

2020-02-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人