怎么爬取pc客户端数据_中珠IT课没有数据?用爬虫啊!

在进行社会科学研究时

你是否遇到过难以找到支撑数据的问题?

数据库?不一定有所需的内容且还可能要收费

问卷?访谈?调查较难开展且代表性难以保证

But……

只要你掌握了爬虫技术

几乎整个互联网都是你的数据库

爬虫技术是什么?

举个简单的例子

一位同学想要对

日本驻华大使馆的微博内容进行调查研究

bdb5b79cf9f38338c182ea3b6e490090.png

日本驻华大使馆微博首页

日本驻华大使馆每天发布好几条微博

如果手动一条条进行归类、分析

工作量那是巨大的

而有了爬虫软件的帮助

你不仅能快速收集每条微博的点赞量、转发量

还能收集与日本大使馆微博互动用户的微博信息

2fa47fc0f97a41246c50bb21921028a2.png

利用爬虫软件收集的原数据

数据收集好之后

就可以对其进行分类、可视化

876d074bc52654cdcca36a9db5a7717f.png

与日本驻华大使馆微博互动用户的来源地统计

18b488222fc53059f1d10baa82d4e899.png

日本驻华大使馆微博在研究时间段内发出微博的分类统计

爬虫技术为研究带来了极大的方便

不会使用怎么办?

别怕!

图书馆收藏了不少的相关图书

看准了就借走8~

21752a1800510614fca8db2513be4548.png

Python爬虫技术 : 

深入理解原理、技术与开发

李宁

清华大学出版社

珠海校区自然科学馆

中文流通(3楼)

南校园中文新书库(1楼)

东校园中文图书(3楼/4楼东)

TP311.561/379

b1d9ed17f9a2a82e4f1b725e1ca998be.png

从实战角度系统讲解Python爬虫的核心知识点, 并通过20多个实战案例, 演绎使用各种技术编写Python爬虫的方式,读者可以任意组合这些技术,完成非常复杂的爬虫应用。

21752a1800510614fca8db2513be4548.png

Python编程指南 : 语法基础、

网络爬虫、数据可视化与项目实战

c4b3badd28091dd1b70025988b3f0d75.png

关东升

清华大学出版社

珠海校区自然科学馆

中文流通(3楼)

南校园中文新书库(1楼)

东校园中文图书(3楼/4楼东)

TP311.561/488

全书分为20章,包括:绪论,搭建开发环境,第一个Python程序,Python语法基础,数据类型,运算符,控制语句,数据结构,函数,面向对象编程,异常处理,常用模块,正则表达式,文件操作与管理,数据库编程,网络编程,wxPython图形用户界面编程,Python多线程编程,项目实战1:网络爬虫与爬取股票数据,项目实战2:数据可视化与股票数据分析。

21752a1800510614fca8db2513be4548.png

Python网络爬虫技术

江吉彬、张良均

人民邮电出版社

珠海校区自然科学馆

中文流通(3楼)

南校园中文新书库(1楼)

东校园中文图书(3楼/4楼东)

TP311.561/453

deb90f95b32b3d3a1d207ceea32c0bc9.png

以任务为导向,较为全面地介绍了不同场景下Python爬取网络数据的方法。全书共7章,内容分别为:(1)爬虫与反爬虫的基本概念,Python爬虫环境的配置;(2)爬取过程中涉及的网页前端基础;(3)在静态网页中爬取数据的过程;(4)在动态网页中爬取数据的过程;(5)对登录后才能访问的网页进行模拟登录的方法;(6)爬取PC客户端、App的数据的方法;(7)使用Scrapy爬虫框架爬取数据的过程。

21752a1800510614fca8db2513be4548.png

Python网络爬虫开发从入门到精通

e8cb7dd9cdeac9b8a926759e9b723622.png

刘延林

北京大学出版社

珠海校区自然科学馆

中文流通(3楼)

南校园中文新书库(1楼)

东校园中文图书(3楼/4楼东)

TP311.561/462

针对Python爬虫初学者,从零开始,系统地讲解了如何利用Python进行常见的网络爬虫的程序开发。没有高深的理论,每一章都是以实例为主,读者参考源码,修改实例,就能得到自己想要的结果。目的是让读者看得懂、学得会、做得出。

21752a1800510614fca8db2513be4548.png

Python网络爬虫实战

吕云翔、张扬

清华大学出版社

珠海校区自然科学馆

中文流通(3楼)

南校园中文新书库(1楼)

东校园中文图书(3楼/4楼东)

TP311.561/418

2bf1242bba0d56aedb7aeee6c1d8e4d9.png

介绍如何利用Python进行网络爬虫程序的开发,从Python语言的基本特性入手,详细介绍了Python爬虫开发的相关知识,涉及HTTP、HTML、JavaScript、正则表达式、自然语言处理、数据科学等内容。

21752a1800510614fca8db2513be4548.png

Python网络爬虫权威指南

3b971dee233426a4b6d3d4679fb5cd7f.png

(美) 瑞安·米切尔著

神烦小宝译

人民邮电出版社

珠海校区自然科学馆

中文流通(3楼)

南校园中文新书库(1楼)

东校园中文图书(3楼/4楼东)

TP311.561/404 2D

采用简洁强大的Python语言,全面介绍网页抓取技术,解答诸多常见问题,是掌握从数据爬取到数据清洗全流程的系统实践指南。内容分为两部分:第一部分深入讲解网页抓取的基础知识,重点介绍BeautifulSoup、Scrapy等Python库的应用;第二部分介绍网络爬虫编写相关的主题,以及各种数据抓取工具和应用程序,帮你深入互联网的每个角落,分析原始数据,获取数据背后的故事,轻松解决遇到的各类网页抓取问题。

21752a1800510614fca8db2513be4548.png

网络爬虫全解析 : 

技术、原理与实践

 罗刚

电子工业出版社

珠海校区自然科学馆

中文流通(3楼)

南校园中文理科书库(夹层4楼)

东校园中文图书(3楼/4楼东)

TP311.561/101

5ba4fdc07023ed1b9602312fabc35f43.png

从开发网络爬虫所需要的Java语法开始讲解,然后介绍基本的爬虫原理。通过介绍优先级队列、宽度优先搜索等内容,引领读者入门,之后根据当前风起云涌的云计算热潮,重点讲述了云计算的相关内容及其在爬虫中的应用,以及信息抽取、链接分析等内容。最后是案例分析,介绍如何抓取微信和微博数据,以及爬虫技术在电商、医药、金融等领域的应用。

21752a1800510614fca8db2513be4548.png

爬虫实战 : 从数据到产品

7d7cf03e2d5bdb8e54ff8eca2d3ac668.png

贺思聪

电子工业出版社

深圳校区中文流通

TP274/855

从多个数据项目实例出发,介绍爬虫、反爬虫的各种案例,使读者了解到数据抓取和分析的完整过程。书中案例的难度由浅入深,以作者原创的代码为主,不借助现成的框架,强调在数据采集过程中的发散思维,总结攻克反爬虫的思维模式,实现以低成本的方式得到想要的数据的愿望。最后,用一个“爱飞狗”的例子,为读者展示如何从0到1地开发一个大数据产品。

375625202e5ac2ab0635aec13e31d91b.png

4f70bcc9b05bd1b9bf6ba63c7c3f36c1.png

稿件来源:珠海校区图书馆

责任编辑:莫雨桐

初审:黄洁宏

审核:许景明

审核发布:陈有志

转载自中山大学图书馆微信公众号, 若发现有侵犯您版权的内容,请第一时间联系我们, 我们将立即删除,谢谢!

199cb28ed5510e60cd3e38e7ccb7e27f.png

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值