感悟
dltan
百川终到海。微信:realtimedata
展开
-
2022年计划
2022年计划和目标;原创 2022-01-01 23:50:36 · 389 阅读 · 0 评论 -
Linux中sh文件的执行方法
1.切换到.sh脚本所在的目录,执行.sh脚本:[root@nhost21 mnt]# ls111.py daytime.csv hdfs_python.py Rplots.pdf test.pyaa.sh ...原创 2019-02-26 11:39:42 · 31033 阅读 · 0 评论 -
Linux中R语言和其它软件接口调用连接的解决方法
不仅仅是R语言,以R语言为例。R语言调用其它软件的资源,需要获取到其它软件的接口。例如,R语言和HBase数据库进行连接,获取到HBase数据库的数据。可使用的方法就有三种:1.R语言本身和HBase的连接R语言和HBase连接,可借助rhadoop的包,通过R自身的接口访问到HBase的数据,但是往往由于包和依赖的问题,使得R语言在访问数据库和包使用过程中出现错误,这可能是由于依赖和编译等...原创 2019-02-26 12:07:21 · 847 阅读 · 0 评论 -
R语言自动化报表实现Excel的数据一键更新
加载包library(openxlsx)设置工作目录file <- "C:\\Users\\dell\\Desktop\\excelbao"name <- "DCAT inputs.xlsx"读取该目录下的数据setwd(file)options(scipen = 200)file_name <- paste(file, &原创 2019-03-07 09:11:41 · 2073 阅读 · 0 评论 -
Linux下R语言不指出中文或编码乱码问题解决Error: invalid multibyte character in parser
**报错为:**Error: invalid multibyte character in parser在windows下,常常遇到中文乱码,对中文的编码方式,R语言极其敏感,如何让解决呢?在这之前我用过UE软件,现在用的是Notepad++这个软件解决了编码在程序运行中识别失败的问题。软件介绍(1) UltraEdit该软件可解决windows下打开的程序脚本乱码问题,直接打开后,乱码...原创 2019-03-11 14:35:37 · 5603 阅读 · 1 评论 -
如何让做好程序员和数据分析师,告诫自己
统计和计算机的区别作为一个统计专业的人,实在无法之言片语说不出统计和计算机的区别。但是学习统计的人计算机编程和计算机通信等原理较为薄弱,在工作中这些又不可缺少。因此学习计算机原理,了解计算机的运行机制对统计专业的人来说是非常有必要的且重要的。刚安装软件时感触最大,我在电脑安装Oracle数据库程序软件和计算机专业的朋友比较就发现了自己的缺点,对比的效果是:我是统计专业初次安装花费时间是2小时,...原创 2019-03-18 23:58:03 · 1106 阅读 · 0 评论 -
数据分析中异常值的应用
异常值的概念异常值,不符合正态分布或者不符合业务逻辑的数据,统称为异常值。异常值的剔除1.异常值不符合正常的,误差等不符合规律。2.让数据符合规律,让某些不符合业务逻辑的数据进行剔除。异常值的成因1.人为造成,人工造成的影响。偶然和必然原因影响。2.机器造成,受到电脑等因素影响。3.事件规律造成,受什么指标因素影响。异常值的预警1.故障分析:判断电路故障2.偏离值分析:判断经...原创 2019-03-25 22:43:14 · 2106 阅读 · 0 评论 -
R语言并行化处理
基本设定,加载工具包setwd(“H:\程序”)getwd(options(scipen = 10)set.seed(“1330111001”)require(plyr)install.packages(“geosphere”)install.packages(“foreach”)install.packages(“doParallel”)library(geosphere)l...原创 2019-03-31 20:52:01 · 1379 阅读 · 0 评论 -
电商数据分析理解
电商数据分析,是一个数据信息收集很多的数据行业。对电商数据进行分析意味着有更大的可能向市场进军。在电商数据分析这块,结合之前工作中的业务进行如下总结:1.了解本行业动态行业热度高,则店铺推广上容易被削弱,大家都争先对该关键词的竞价推广,对个人店铺会造成一定的影响。2.了解互补行业和共栖行业每一个行业,基本都不是独立存在的,或多或少依赖其它产品,再换句话说,不同的产品也不是独立存在的,很可能...原创 2019-04-06 23:35:58 · 2905 阅读 · 0 评论 -
Linux的端口处理解决问题
Linux的端口,被占用的时候,导致该端口无法启用,因此需要停掉该端口的服务或杀掉该端口的进程。1.通过端口号查找应用程序进程并kill[root@master ~]# netstat -apn | grep 8080tcp6 0 0 :::8080 :::* LISTEN 2141/jav...原创 2019-04-02 22:22:09 · 1104 阅读 · 0 评论 -
从不同角度进行研发:程序设计更重要的是产品设计思想
一个好的产品开发。产品设计从多角度进行:CEO、CTO、业务经理、员工等都需要进行满足,只有从不同角度进行,才能设计好的产品原创 2019-07-09 11:17:25 · 412 阅读 · 0 评论 -
ENFJ型的人:什么样的人很适合人工智能方向
ENFJ型的人非常适合人工智能,运营方向,精算师,金融分析师,人工智能方向(AI), 大数据分析师, 区块链工程师原创 2019-07-09 11:25:36 · 4054 阅读 · 1 评论 -
glmnet包做线性回归
install.packages(“glmnet”)library(glmnet)library(survival)setwd(“C:\Users\TD\Desktop”)inputfile=“id0.05exp.txt”lncRNA<-read.table(inputfile,header=T,sep="\t",row.names = 1,check.names = F,stri...原创 2019-07-12 09:33:46 · 3678 阅读 · 0 评论 -
R语言对变量进行聚类:横向聚类
图形设置par(ask=TRUE)opar &lt;- par(no.readonly=FALSE)输入flexclust包自带数据nutrient,是27个不同种类的肉的5个成分含量install.packages(“flexclust”)data(nutrient, package=“flexclust”)row.names(nutrient) &lt;- tolower(row....原创 2019-02-20 18:44:49 · 6948 阅读 · 0 评论 -
R语言中使用Python程序读取hdfs上的数据
前言:为了实现R和HBase连接,最近一直进行各种的编译,由于下午女朋友问我R语言数据清洗的问题,我果断推荐它使用sqldf这个包。这样R语言就能使用SQL语句。同理,我想R语言中是否也能使用Python程序呢?于是我想使用Python程序在R中应该是能进行操作的,最终网上找到了reticulate包。该包让R调用python的语法程序变得极为简单。reticulate包安装reticula...原创 2019-02-20 18:43:09 · 980 阅读 · 1 评论 -
Python基础小常识(二)
1. wxPython是Python语言的一套优秀的GUI图形库。2. PyQt是Python语言的GUI编程解决方案之一。可以用来代替Python内置的Tkinter。其它替代者还有PyGTK、wxPython等。与Qt一样,PyQt是一个自由软件。PyQt是PyKDE的基础。3.wordcloud一款非常好的词云包https://blog.csdn.net/cy776719526/arti...原创 2019-02-14 18:33:15 · 395 阅读 · 0 评论 -
重头再来,真不是说着玩
今天见鬼了:原因是之前安装的环境是centos6.8,用到后面发现6.8不能满足后续docker的性能,那就接受这个现实吧!(其实,这个问题貌似也能避免,继续使用)于是,我重新安装虚拟机环境,换成centos7.4的,从6.8的桌面版本,变到了非桌面版本,看着怪怪的。没事,这个我也不是不能接受,于是找到网卡的路径,进行重新设置,好在后面的Xshell是可以连接上了,登录上应该就是成功了!貌似我...原创 2019-02-15 18:50:00 · 292 阅读 · 0 评论 -
python和R一键运行脚本
互换R和python环境首先环境安装annconda,其次R和python安装上[hdfs@hadoop1 /]$ conda install rpy2互相切换可以使用函数命令R脚本一键运行source(test.R)python脚本一键运行exec(open(‘hdfs_python.py’).read())...原创 2019-02-21 18:24:42 · 956 阅读 · 0 评论 -
python读取hdfs数据
加载包from hdfs.client import Clientclass Process_Data_Hdfs(): def __init__(self): self.client = Client("http://hadoop1:50070") self.filename = "/user/hdfs/read.txt"读取hdfs文件内容,将...原创 2019-02-21 22:31:40 · 16901 阅读 · 3 评论 -
基于ARIMA模型的空气质量AQI时间序列分析
(程序代码见后)背景:随着全球气候的变暖,空气质量每天发生变化,而人们的生活质量和空气质量息息相关。如下表1所示,空气质量和空气的成分有很大的关系,为此文中选择某城市一年内的空气指数数据进行分析。注:数据源自中国气象网数据基本描述对数据进行基本统计,得到时序数值共365个,AQI的基本数值情况如下表1所示,通过查询空气质量指数得到AQI空气质量指数取值范围及其相应内别,如下表2...原创 2019-02-17 13:22:35 · 16755 阅读 · 3 评论 -
观影人数随着时间变化的趋势分析.R语言
setwd(“C:\Users\TDL\Desktop\观影人数时间序列”)library(MASS)library(forecast)source(“trndseas.R”)data=read.table(“chicago.txt”,header=F)head(data)names(data)=c(“每日平均收入”,“年月日”)data年月日=as.Date(data年月日=as....原创 2019-02-22 23:47:19 · 1802 阅读 · 0 评论 -
R语言如何单独保存输出图片文件
前言:记得设置图片的保存工作路径,即数据文件路径:setwd(“C:\Users\TDL\Desktop\test.picture”)1.图片文件保存输出jpeg(file = "style.jpg")plot(iris[,1],col="red") ## 画图程序dev.off();2.图片尺寸调整输出p.picture=paste(a,"test.jpg")jpeg(p.pi...原创 2019-02-23 11:38:39 · 69763 阅读 · 2 评论 -
linux下进程的理解
1.关于进程的理解进程即运行的所有程序和打开的服务,关掉其进程和服务将有利于释放内存,减轻电脑空间压力。(1)windows的进程如下(2)linux中的进程如下查看所有进程 ,ps命令可以列出系统中当前运行的进程,所列出的进程是在执行ps命令这个时刻正在运行的进程。此外也可以用:[root@tandelin ~]# ls /proc/2.查看指定进程(例如要查看PID为2的进程...原创 2019-02-23 14:05:13 · 568 阅读 · 0 评论 -
Python的环境变量设置、虚拟环境、包加载
包的调用(1)将模块中所有的数据赋值给模块名,调用时需要模块名.方法名import 模块名 ===》 (2)将该方法单独放到当前文件运行一遍,调用时只需要方法名()即可运行from 模块名 import 方法名 ==》导入一个包 就是执行包下的__init__.py文件。导入系统环境设置包import sys,os获取当前文件的全名os.path.abspath(__fil...原创 2019-02-27 22:58:33 · 3192 阅读 · 0 评论 -
从Github上获取R包/安装
注:install.packages()函数可以安装发布在CRAN上的R包,R包由不同的人所创建开发,依托devtools包使得开发R包的渠道增加。要想找到其它开源者的包,就需要通过devtools包。1.通过Github仓库名和包名加载不是所有的R包都提交上传到CRAN,如Github,需要通过一定的渠道进行安装install.packages(&quot;devtools&quot;)library(de...原创 2019-02-18 18:09:08 · 39635 阅读 · 2 评论 -
R语言获取PostgreSQL数据库的数据
加载RPostgreSQL包>install.packages("RPostgreSQL")>library(RPostgreSQL)>Loading required package: DBI建立数据库的driver 链接>con = dbDriver("PostgreSQL") 填写数据库连接信息>pgdb_con = dbConnect(con...原创 2019-02-28 19:03:18 · 2390 阅读 · 0 评论 -
R语言获取HBase/hive/hdfs数据
(1)【单独运行python .py脚本在/mnt路径下】首先确定写好的.py脚本在shell终端上运行程序不会出现错误。[root@nhost21 ~]# python /mnt/hbasetest.py[1, 111, 222, 333][2, 111, 222, 333][root@nhost21 ~]# python3 /mnt/hbasetest.py[1, 111,...原创 2019-02-28 23:56:00 · 698 阅读 · 0 评论 -
高斯混合分布模型预测
高斯模型加载install.packages('mlegp') # 安装包library(mlegp) # 加载包data=read.csv('training.csv') #训练集数据读取str(data) #查看训练集数据testdata=read.csv('test.csv') # 验证集数据读取str(testdata) #查看验证集数据x<-data[1:8] #训...原创 2019-02-19 23:02:15 · 2893 阅读 · 0 评论 -
2019年新的计划
1.加强任务管理和时间管理能力2.思考总结文档/程序代码可读性/可用性3.坚持加强代码的意义,优化和修改等4.坚持有意义的计划,偶尔出去和人进行交流,学会表达和沟通。5.必须强迫自己与团队分享进度和想法,避免错觉,提高效率6.充分利用Google和百度7.不能忽略报错消息,不得过且过。8.熟练使用不同类型的开发工具,不局限唯一,换不同的方式进行思考。9.在一个地方卡住了要坚持呼救...原创 2019-02-01 17:38:20 · 351 阅读 · 0 评论