日常大数据分享
离异带俩娃
这个作者很懒,什么都没留下…
展开
-
Python爬虫爬取网页数据
本篇文章介绍爬虫爬取某租房信息数据,数据仅用于学习使用无商业用途。首先在Python Console 控制台中安装requests、parsel模块,requests发送网络请求获取数据,parsel用于对数据源进行解析。pip install requestspip install parsel下面开始实操代码:import requestsimport parsel# file = open("C:\\Users\\AUSU\\Desktop\\租房数据.txt", "a"转载 2022-02-16 21:12:25 · 3102 阅读 · 0 评论 -
利用Spark算子解决问题
1、统计年级排名前十学生各科的分数 [学号,学生姓名,学生班级,科目名,分数]object test1 { def main(args: Array[String]): Unit = { val conf: SparkConf = new SparkConf().setAppName("sql").setMaster("local") val sc = new SparkContext(conf) val scoreRDD: RDD[String] = sc.text.原创 2021-05-12 14:42:46 · 507 阅读 · 0 评论 -
Spark实现PI圆周率计算
1.采用蒙特卡洛概率的方法计算Pi圆周率以中心点为圆心,圆的半径为1,圆的面积之比与正方形的面积之比为:π/4那么我们可以通过落入圆形中的点数占的比例来估计π的值利用Spark进行代码实现:object Demo13_Pi { def main(args: Array[String]): Unit = { val list: Seq[Int] = 0 to 1000000 //创建spark 环境 val conf: SparkConf = new Spark原创 2021-05-11 19:47:37 · 1097 阅读 · 0 评论 -
Hbase知识图谱
原创 2021-04-28 10:48:22 · 181 阅读 · 0 评论 -
Hive的分区和分桶
1.Hive的分区分区的概念和分区表: 分区表指的是在创建表时指定分区空间,实际上就是在hdfs上表的目录下再创建子目录。 在使用数据时如果指定了需要访问的分区名称,则只会读取相应的分区,避免全表扫描,提高查询效率。Hive的分区分为静态分区和动态分区两种方式:1)静态分区首先创建分区表create table students_pt(id bigint,name string,age int,gender string,clazz string)PARTITIONED B原创 2021-04-13 19:22:23 · 509 阅读 · 0 评论