Python爬虫
文章平均质量分 62
本专栏致力于为读者提供深入浅出的python知识,包括python爬虫、数据分析和可视化,后续还会更新机器学习和深度学习的相关内容。同时每个实际项目提供了完整、实用、运行流畅的代码,可以帮助读者解决实际的问题。
wp_tao
wild programmer
展开
-
Python实现全球技术地图信息采集
本次采集的目标网址为:http://www.globaltechmap.com/。全球技术地图(GLOBAL TECHNOLOGY MAP)网站主要提供了先进产业例如生物、能源、海洋、航空等方面的最新资讯。本次以该网站信息栏下的2024年的文章信息采集为示例,思路是先采集文章的标题信息和该文章对应的详情页的url,再通过详情页的url采集文章的发布时间、国家、正文内容和来源。原创 2024-05-17 12:00:48 · 351 阅读 · 0 评论 -
Python网络爬虫:油管视频评论
本文的思路是利用googleapiclient.discovery连接Google API服务,获取油管视频的评论。Google API可以为开发人员提供很多有用的工具和数据,使用起来也非常简单方便。注意,连接Google API服务需要设置代理,这里需要用到httplib2库,利用该库设置代理信息,然后传入googleapiclient.discovery.build方法即可。原创 2024-04-06 17:12:13 · 316 阅读 · 0 评论 -
Python网络爬虫:b站弹幕
上一篇对b站的视频评论爬取进行了探讨,这一篇是弹幕。原创 2024-04-04 19:13:07 · 1552 阅读 · 0 评论 -
Python网络爬虫:b站评论
本文不对数据采集的过程做探讨,直接上代码。原创 2024-04-04 14:35:20 · 590 阅读 · 0 评论 -
Python网络爬虫:Selenium--以携程酒店为例
Selenium是一个用于网站应用程序自动化的工具,它可以直接运行在浏览器中,就像真正的用户在操作一样。它相当于一个机器人,可以模拟人类在浏览器上的一些行为,比如输入文本、点击、回车等。Selenium支持多种浏览器,本文以Chrome浏览器为例。chromedriver是一个驱动Chrome浏览器的驱动程序,针对不同的浏览器有不同的driver。原创 2024-04-03 18:39:30 · 1687 阅读 · 0 评论 -
Python实现微博评论分析
本文介绍如何使用Python对微博评论数据进行分析。首先看一下评论数据的结构和字段,如下图:字段有微博的发布时间、微博内容、认证类型、所属ip地址等。原创 2024-04-16 12:21:36 · 627 阅读 · 0 评论 -
b站评论词频统计绘制词云图
在笔者之前的文章中,已经专门介绍了b站评论的爬取(),这里只对b站评论的文本数据做展示。原创 2024-04-04 22:12:34 · 452 阅读 · 0 评论 -
基于Python爬虫的豆瓣电影影评数据可视化分析
本文基于Python编程语言,以豆瓣电影《你好,李焕英》为爬取目标,完成了对影评数据的爬取和分析,并使用可视化方法展示了影评词云图、评分分数分布、评论数量与时间及分布城市的关系,通过这些数据的提取,全面挖掘了影评背后的关键信息。原创 2024-02-18 21:08:32 · 1739 阅读 · 0 评论 -
基于python爬虫的豆瓣电影数据可视化分析
本文通过爬取豆瓣网电影top250的相关数据,经过数据清洗和可视化分析,发现剧情类型电影最受观众喜爱,同时也发现评分与评价人数存在正相关关系。原创 2024-02-18 15:30:54 · 970 阅读 · 3 评论 -
基于数据可视化的豆瓣图书榜单数据分析
本文旨在对豆瓣图书榜单TOP250进行数据分析,主要包括数据抓取、数据清洗和数据分析。一、数据抓取豆瓣图书top250的数据爬取比较简单,使用requests发送请求,使用lxml模块的xpath表达式提取数据。难点在于价格、出版年份、出版社等信息在一起,需要使用python的字符串处理方法将各种数据分离,包括作者评价人数等信息都需要做替换、去除空格等等字符串操作处理。以上就是今天要讲的内容,如需论文可以联系笔者获取。原创 2024-02-19 22:52:20 · 552 阅读 · 0 评论 -
基于Python使用爬虫从豆瓣网获取最新上映的电影信息
本文使用python爬虫技术获取豆瓣网最新上映的电影信息,网址为即将上映电影。本文使用到的python第三方库主要有requests、BeautifulSoup和matplotlib,上述第三方库的安装和使用方法笔者不再赘述,读者可自行查询相关资料,也可以联系笔者索要完整的解释、分析文档。本文的关注点是分步骤实现数据抓取和数据可视化,以及提供完整可运行的代码原创 2024-02-18 17:49:44 · 1512 阅读 · 0 评论 -
JavaScript与HTML交互
首先创建一个html页面,并在页面中编写一段JS代码,注意,JS代码要放在标签中,然后实现html代码和JavaScript的交互。原创 2024-04-17 22:58:40 · 525 阅读 · 0 评论 -
JavaScript入门--判断分支
上述代码是JavaScript使用if–else if–else判断的语法格式,类似于python的if–elif–else。上述代码输出ccc,当然,如果i=15,则输出bbb。注意,只有当执行的语句只有一行的时候才能这么写,建议还是要加{}。上述代码输出工作日。原创 2024-04-17 12:20:32 · 54 阅读 · 0 评论 -
JavaScript入门--循环
这里用for in语句循环遍历数组a,但是取出的i是数组a中每个元素的下标,所以要想循环取出元素,需要使用a[i],上述代码输出结果是:python Java JavaScript。加入i=100,那么会输出一次hello,因为do-while语句是先执行再判断。上述代码的输出结果是python JavaScript。上述代码的输出结果是python。上述代码输出4次hello。上述代码输出5次hello。原创 2024-04-16 23:03:29 · 100 阅读 · 0 评论 -
JavaScript入门--函数
先来看一个JavaScript定义函数的示例。上述代码中,function是定义函数的关键字,add是函数名,i和j是参数,大括号内是函数体。add(1,2)的意思是调用函数,返回值是1+2=3,所以上述代码运行结果是3。原创 2024-04-16 19:16:23 · 41 阅读 · 0 评论 -
JavaScript入门--数组
b = new Array(88, 'python', '你好')a.pop()结果是:[ 55, 12, ‘python’, ‘hello’ ]。原创 2024-04-16 15:43:29 · 37 阅读 · 0 评论 -
JavaScript入门--数据类型
字符串定义时可以使用单引号、双引号和反引号。上述代码的运行结果是hello python JavaScript。原创 2024-04-16 14:59:07 · 31 阅读 · 0 评论 -
JavaScript入门--变量
上述代码中,在函数体内使用var定义的变量a是局部变量,外部不能访问,而没用var定义的变量b在函数外部可以使用。使用console.log(a)会报错,而console.log(b)则会输出2。常量是用const来定义,特点是定义之后不能再进行修改。var定义变量是ES5的语法,新版的ES6语法可以用let定义变量。如果只声明变量,而不赋值的话,输出的是undefined。如下的代码,a, b, c, d的值分别是什么呢?定义变量a, b, c,并输出到控制台。原创 2024-04-13 13:26:43 · 76 阅读 · 0 评论 -
Python网络爬虫:HTML/CSS/JavaScript介绍
CSS是Cascading Style Sheets的缩写,中文名叫层叠样式表,是一种标记语言,用于为HTML文档定义布局,涉及字体、颜色、边距、高度、宽度、高级定位等方面。原创 2024-04-02 16:47:20 · 898 阅读 · 0 评论 -
Python网络爬虫:Requests库
Requests是Python的一个很实用的HTTP客户端库,可完全满足如今编写网络爬虫程序的需求,是爬虫开发人员首选的爬虫库。其具有语法简单易懂,完全符合Python优雅和简洁的特性,在兼容性上完全兼容Python任何版本,具有较强的适用性。# GET请求# POST 请求。原创 2024-04-02 22:15:45 · 413 阅读 · 0 评论