在进行社会科学研究时
你是否遇到过难以找到支撑数据的问题?
数据库?不一定有所需的内容且还可能要收费
问卷?访谈?调查较难开展且代表性难以保证
But……
只要你掌握了爬虫技术
几乎整个互联网都是你的数据库
爬虫技术是什么?
举个简单的例子
一位同学想要对
日本驻华大使馆的微博内容进行调查研究
日本驻华大使馆微博首页
日本驻华大使馆每天发布好几条微博
如果手动一条条进行归类、分析
工作量那是巨大的
而有了爬虫软件的帮助
你不仅能快速收集每条微博的点赞量、转发量
还能收集与日本大使馆微博互动用户的微博信息
利用爬虫软件收集的原数据
数据收集好之后
就可以对其进行分类、可视化
与日本驻华大使馆微博互动用户的来源地统计
日本驻华大使馆微博在研究时间段内发出微博的分类统计
爬虫技术为研究带来了极大的方便
不会使用怎么办?
别怕!
图书馆收藏了不少的相关图书
看准了就借走8~
Python爬虫技术 :
深入理解原理、技术与开发
李宁
清华大学出版社
珠海校区自然科学馆
中文流通(3楼)
南校园中文新书库(1楼)
东校园中文图书(3楼/4楼东)
TP311.561/379
从实战角度系统讲解Python爬虫的核心知识点, 并通过20多个实战案例, 演绎使用各种技术编写Python爬虫的方式,读者可以任意组合这些技术,完成非常复杂的爬虫应用。
Python编程指南 : 语法基础、
网络爬虫、数据可视化与项目实战
关东升
清华大学出版社
珠海校区自然科学馆
中文流通(3楼)
南校园中文新书库(1楼)
东校园中文图书(3楼/4楼东)
TP311.561/488
全书分为20章,包括:绪论,搭建开发环境,第一个Python程序,Python语法基础,数据类型,运算符,控制语句,数据结构,函数,面向对象编程,异常处理,常用模块,正则表达式,文件操作与管理,数据库编程,网络编程,wxPython图形用户界面编程,Python多线程编程,项目实战1:网络爬虫与爬取股票数据,项目实战2:数据可视化与股票数据分析。
Python网络爬虫技术
江吉彬、张良均
人民邮电出版社
珠海校区自然科学馆
中文流通(3楼)
南校园中文新书库(1楼)
东校园中文图书(3楼/4楼东)
TP311.561/453
以任务为导向,较为全面地介绍了不同场景下Python爬取网络数据的方法。全书共7章,内容分别为:(1)爬虫与反爬虫的基本概念,Python爬虫环境的配置;(2)爬取过程中涉及的网页前端基础;(3)在静态网页中爬取数据的过程;(4)在动态网页中爬取数据的过程;(5)对登录后才能访问的网页进行模拟登录的方法;(6)爬取PC客户端、App的数据的方法;(7)使用Scrapy爬虫框架爬取数据的过程。
Python网络爬虫开发从入门到精通
刘延林
北京大学出版社
珠海校区自然科学馆
中文流通(3楼)
南校园中文新书库(1楼)
东校园中文图书(3楼/4楼东)
TP311.561/462
针对Python爬虫初学者,从零开始,系统地讲解了如何利用Python进行常见的网络爬虫的程序开发。没有高深的理论,每一章都是以实例为主,读者参考源码,修改实例,就能得到自己想要的结果。目的是让读者看得懂、学得会、做得出。
Python网络爬虫实战
吕云翔、张扬
清华大学出版社
珠海校区自然科学馆
中文流通(3楼)
南校园中文新书库(1楼)
东校园中文图书(3楼/4楼东)
TP311.561/418
介绍如何利用Python进行网络爬虫程序的开发,从Python语言的基本特性入手,详细介绍了Python爬虫开发的相关知识,涉及HTTP、HTML、JavaScript、正则表达式、自然语言处理、数据科学等内容。
Python网络爬虫权威指南
(美) 瑞安·米切尔著
神烦小宝译
人民邮电出版社
珠海校区自然科学馆
中文流通(3楼)
南校园中文新书库(1楼)
东校园中文图书(3楼/4楼东)
TP311.561/404 2D
采用简洁强大的Python语言,全面介绍网页抓取技术,解答诸多常见问题,是掌握从数据爬取到数据清洗全流程的系统实践指南。内容分为两部分:第一部分深入讲解网页抓取的基础知识,重点介绍BeautifulSoup、Scrapy等Python库的应用;第二部分介绍网络爬虫编写相关的主题,以及各种数据抓取工具和应用程序,帮你深入互联网的每个角落,分析原始数据,获取数据背后的故事,轻松解决遇到的各类网页抓取问题。
网络爬虫全解析 :
技术、原理与实践
罗刚
电子工业出版社
珠海校区自然科学馆
中文流通(3楼)
南校园中文理科书库(夹层4楼)
东校园中文图书(3楼/4楼东)
TP311.561/101
从开发网络爬虫所需要的Java语法开始讲解,然后介绍基本的爬虫原理。通过介绍优先级队列、宽度优先搜索等内容,引领读者入门,之后根据当前风起云涌的云计算热潮,重点讲述了云计算的相关内容及其在爬虫中的应用,以及信息抽取、链接分析等内容。最后是案例分析,介绍如何抓取微信和微博数据,以及爬虫技术在电商、医药、金融等领域的应用。
爬虫实战 : 从数据到产品
贺思聪
电子工业出版社
深圳校区中文流通
TP274/855
从多个数据项目实例出发,介绍爬虫、反爬虫的各种案例,使读者了解到数据抓取和分析的完整过程。书中案例的难度由浅入深,以作者原创的代码为主,不借助现成的框架,强调在数据采集过程中的发散思维,总结攻克反爬虫的思维模式,实现以低成本的方式得到想要的数据的愿望。最后,用一个“爱飞狗”的例子,为读者展示如何从0到1地开发一个大数据产品。
稿件来源:珠海校区图书馆
责任编辑:莫雨桐
初审:黄洁宏
审核:许景明
审核发布:陈有志
转载自中山大学图书馆微信公众号, 若发现有侵犯您版权的内容,请第一时间联系我们, 我们将立即删除,谢谢!