- 博客(21)
- 资源 (3)
- 收藏
- 关注
原创 XX学校毕业生就业情况分析
2018届通信学院毕业生就业情况分析今天拿到了上一届师兄们的就业情况表,就想着做个关于就业的统计分析。花了3个小时做整个分析的构思、设计和实现,也算是费尽心思了吧!如果本文章有任何设计到侵犯个人隐私的情况,请立即联系本人18883287680@163.com,本人承诺马上删除。读取文件import pandas as pdimport matplotlib.pyplot as p...
2018-08-24 22:57:25 2582 6
原创 用户留存模型
– 数据准备(这里应该是分区表,每个分区存放当天活跃用户id,为图方便放在了一个表里)– 创建hive表CREATE TABLE `active`( `id` string, `ds` string)ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'WITH SERDEPROPERTIES ( 'field.delim'='\t')STORED AS INPUTFORMAT 'org.ap
2020-11-23 21:14:29 723 1
原创 docker与k8s
一、docker入门命令docker基本命令:安装:apt-get update && apt-get install docker.io将当前用户增加到docker分组,不用每次都输sudosudo usermod -a -G docker $USER 重登该用户后生效拉取和管理离线镜像docker search imagename # 查找镜像...
2019-10-29 11:59:40 593
原创 scala基本语法速查手册
val 不可变 var可变val myStr=“hello world!”val myStr1:String=“hello world!”val myStr2:java.lang.String=“hello world!”import java.lang._ //java lang包里所有东西Scala数据类型(都是类,scala.Int)特殊:String java.lan...
2019-10-21 10:09:28 494
原创 hive UTC时间转中国时间
在hive中处理UTC时间将 2019-09-28T15:59:50.534944805Z 时区为0的时间 -> 转为东8区时间 2019-09-29 00:01:30from_unixtime(unix_timestamp(regexp_replace(regexp_replace(get_json_object(content,'$.time'),'T',' '),'Z',' ')...
2019-09-29 20:35:36 3298
原创 Linux命令集合
Hadoop集群的高频命令查看共享文件在linux下的哪个地方cd /mnt/hgfs/在Linux下解压压缩包tar xvzf启动hadoop集群./start-all.sh 先进入cd /usr/local/src目录再启动hadoop从hdfs上把文件down下来./hadoop fs -get /1.data /usr/local/src/ 后面路径是文件down下来的存...
2019-08-20 13:26:07 291
转载 Hive中利用正则表达式过滤列名
Hive中利用正则表达式过滤列名Hive 0.13.0之后,select列表支持正则表达式了,如果想要查询除了某个列以外的其他字段的内容,可以使用以下方式,而不是把字段名全部敲出来了。select `(col_name1|col_name2|col_name3)?+.+` from table;其中col_name* 是指不要查询的列名。...
2019-07-26 13:19:04 2783 1
转载 c语言常用知识点梳理
c语言常用知识点:知识点1:交换两个变量值的方法采用第三方变量(最容易想到的方法)采用加减法进行值得交换(面试时常用**)代码如下:b = a - b;a = a - b;b = a + b;采用按位异或的位方式代码如下:a = a^b;b = a^b;a = a^b;知识点2:(*p)[3]与*p[3]的区别因为[]的优先级高于*,所以结合顺序不一样,所表示的...
2019-06-10 16:47:54 688
原创 动态规划之矩阵连乘
思考: 三个矩阵A,B,C的阶分别是 a0∗a1,a1∗a2,a2∗a3a_0*a_1,a_1*a_2,a_2*a_3a0∗a1,a1∗a2,a2∗a3 ,从而(AxB)xC和Ax(BxC)的乘法次数是 a0∗a1∗a2+a0∗a2∗a3,a1∗a2∗a3+a0∗a1∗a3a_0*a_1*a_2+a_0*a_2*a_3,a_1*a_2*a_3+a_0*a_1*a_3a0∗a1∗...
2019-06-10 16:44:26 259
原创 批量转换word为pdf
自己写的一个小工具,用于批量转换word为pdf,使用方式:将完整代码拷贝到文档中,并修改名称为words2pdfs.py将该文件拷贝到需要转换的文档目录下在终端中输入python words2pdfs.py终端会列出来是否需要转换以下文档,输入yes即可。注意:运行后会在当前目录下生成一个pdfs的文件夹,里面就是转换后的所有文件import os,shutilfrom w...
2019-05-22 21:47:53 4810 2
原创 记录pyspark中的sortBykey和sortBy的问题
当我在复习pyspark中的sortByKey时,我试图使用sortByKey对键值对的值进行排序,并设置了keyfunc为键值对的值。但是排序出来的结果和ascending的设置正好相反。我用sortBy方法再次进行操作,能够得到正确结果。我尝试查看了一下源码,但还没有解决问题,因此记录一下问题,以待后续解决和更新。具体运行情况如下:...
2019-05-14 13:50:00 4737 3
转载 无线定位技术概述
FROM http://labs.chinamobile.com/mblog/712208_82886阎啸天于蓉蓉武威(中国移动通信有限公司研究院业务所) 摘 要介绍了位置信息和定位性能分析指标等基本概念,根据定位原理与策略的差异对各种定位方法进行分类,概要阐述和比较说明了蜂窝网络、无线局域网络(WLAN)拓扑...
2018-12-03 20:23:50 25549
原创 不需要输入密码进行数据库备份
问题:在使用mysqldump进行数据库备份的时候,老是让我手动输入密码解决:在-u 和-p的字段后面不需要使用空格,直接连写例子mysqldump -uroot -proot databaseName > databaseName_$(date +%Y%m%d_%H%M%S).sql...
2018-10-09 21:34:13 1712 2
原创 java面试,看这一篇就够了
Java基础知识Java的hashmap的原理,Hashmap中jdk1.8之后做了哪些优化 通过hash的方法,通过put和get存储和获取对象。存储对象时,我们将K/V传给put方法时,它调用hashCode计算hash从而得到bucket位置,进一步存储,HashMap会根据当前bucket的占用情况自动调整容量(超过Load_Facotr则resize为原来的2倍)。获取对...
2018-08-25 16:57:16 2063
原创 公交站点信息爬虫
任务介绍 无论是工作的需要,还是业余时间想对网上数据进行分析,爬虫都是我们必须过的一个基本关。本次任务就是在工作需要的基础上,需要我们对整个XX市的公交站点进行爬取,获取其经纬度信息,便于后续数据的OD分析。按理说这个数据应该是公交公司有的,但是历史数据信息涵盖量不全,便寄希望于百度地图能给我们提供更多的一点信息吧。话不多说,开始今天的简易爬虫教程。工具准备 本次爬虫需要用到的工具...
2018-08-25 13:37:57 2620
原创 数据库速查手册
基本语法就不详细描述了,该文档主要记录复习sql语句时写的所有语句(以前总结的)简单查找 select * from table;查找不重复的项select distinct * from table;where语句查找select * from table where name ='jack';and or 语句select * from table whe...
2018-08-25 13:25:08 300
原创 Spring原理以及流程
Spring IOC、DI、MVC核心原理配置阶段web.xml –> DispatcherServletinit-param–> contextConfigLocation classpath:application.xmlurl-pattern–> /*初始化阶段init –>加载配置文件IOC容器初始化–>Map运行阶段...
2018-08-25 13:23:18 5256
原创 Python讲解MapReduce过程
用Python讲解MapReduce使用python写map.py和reduce.py两个脚本,详细讲解mapreduce整个流程。(本地运行、hadoop集群上利用hadoop-streaming.jar运行)map.py代码import sysfor line in sys.stdin: word_list=line.strip().split(" ") for...
2018-08-25 13:20:27 5451
原创 RDD基本命令
sc.master'local[*]'create RDD demointRDD=sc.parallelize([3,1,2,5,6])intRDD.collect()[3, 1, 2, 5, 6]stringRDD=sc.parallelize(["Apple","Orange","Banana","Grape","Apple"])stringRDD.co...
2018-08-25 13:17:51 739
原创 基于Spark-ALS的协同过滤算法推荐系统
最简单的推荐系统,起到抛砖引玉的作用,各位看官见谅!使用的是MovieLens里面的ml-100k的范例数据集。path="hdfs://localhost:9000/user/fantastic_liar/"rawUserData=sc.textFile(path+"data/u.data")rawUserData.count()100000# 用户id,项目id,评价,日期时...
2018-08-25 13:15:05 1677
转载 CSDN-markdown编辑器使用方式
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I...
2018-08-18 14:28:41 185
apache-atlas-2.1.0-hive-hook.tar.gz
2020-12-13
atlas 血缘管理编译包
2020-12-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人