大数据系列
文章平均质量分 73
caojianhua2018
这个作者很懒,什么都没留下…
展开
-
除了Python爬虫,能想到Excel也可以爬虫吗?
1. 爬虫工具有哪些?如题,一提到爬虫主流就是Python爬虫,其实还有Java爬虫,PHP爬虫,不过没想到的是Excel也可以爬一些表格数据。 2. Excel也可以采集数据如果你熟悉Excel,是不是对Excel获取数据比较好奇?如果你熟悉Excel,生活在大数据时代,对于Python是否应该开启学习了?用Excel采集数据很简单,如下采集一下东方财富网的股票龙虎榜数据:在excel2016中打开数据 -- 新建查询 -- 从Web,在如下窗口中输...原创 2021-03-10 20:02:23 · 527 阅读 · 1 评论 -
Supervisor进程管理实践
在linux中有些任务执行时需要将进程放在后台执行,而如果采用系统自带的命令启动后,那个运行窗口必须一直开着不能关闭,当关闭窗口时该进程就会终止,影响相关程序的运行。如果进程比较多的时候就显得更麻烦,需要开启多个运行窗口。在linux中管理进程的工具supervisor非常实用,下面来实践一下。(1)Supervisor安装在centos系统中安装时,使用root用户登录,然后直接使用yu...原创 2020-02-13 23:37:00 · 595 阅读 · 0 评论 -
Hive大数据项目实践
在搭建了Hadoop和hive环境后,就可以使用hive来进行数据库相关操作了。Hive提供了hql(类sql)语句来操作,基本过程与mysql类似,区别的就是对于hive中的聚合操作,将使用hadoop底层的mapreduce进程来执行。下面以一个游戏公司的游戏、用户等相关分析大数据业务为例,以Hive为工具来完成游戏活跃度、用户使用情况等的统计分析工作。(1)数据的产生因为获取游戏...原创 2020-02-12 10:51:53 · 1396 阅读 · 0 评论