u012891477-CSDN博客

原创《beginning with Python》

‘’’ …. ‘’’ 多行字符串外套，也可以用双引号Print(‘’’This is a very long string. It continues here.And it’s not over yet. “Hello,world!”Still here.’’’)运算时候换行用 \1+2+\4+5Print \(‘Hello,world’)转义字符...

2019-06-14 17:02:24 439

原创 r 语言里拟合函数的参数估计

# 自定义函数f = function(x,a,b,c,d){ (a*x^2+b*x+c)*sinpi(x-1.5)+d}# dt是实现导入的数据，有2列，x和ym.2 <- nls(y ~ f(x,a,b,c,d), data = dt, start = list(a = 0, b = 0,c=0,d=0), trace = T)# 展示abcd的参数拟合结果summ...

2019-04-30 15:04:33 5984 3

原创使用oracle与python进行中文分词

把看病时的主诉文本进行分割，获得词性。从oracle读入文本，在python中分割后完成再写会oracle。最开始使用自带的开源包，比较了3种中文分词包，thulac,snowlp,jieba,根据目测，发现还是jieba好一些。将全量的数据分词完毕后，发现依然存在分割错误的问题。采纳了建议尝试使用百度、腾讯、阿里巴巴开放的接口。调通了一个百度的，代码如下。发现使用百度的包，会...

2019-01-29 15:38:56 790

原创函数聚类分享讲座记录

FDA的历史(FDA 函数数据分析？ Deville(1974) 在经济学应用中从因素分析中衍生出FDA方法 Besse(1979) 从PCA和CA中衍生出FDA方法 Saporta(1981)在做MCA多重相应分析和LR线性回归时做了FDA 20年无文章发表 Bosq(2000):linear process in function spaces Ramsay and Silverm...

2018-12-23 22:25:14 340

从科研社区中汲取营养找论文AI 领域的论文可以在 arXiv 上找到和发布。现在的论文数量非常令人振奋。社区中的许多人降低了从噪声中分辨出信号的难度。Andrej Karpathy 开发了 arXiv sanity preserver，帮助分类、搜索和过滤特征。Miles Brundage 每晚都在推特上发布自己整理的 arXiv 论文列表。很多推特用户常常分享有趣的参考文章，我推荐大家在推特上关...

2018-05-09 17:12:00 1760

原创将社团发现运用在术式组合分类上，失败了

library(igraph)g1<-read.csv("i50.csv",header = TRUE,sep="\t")g2 = graph.data.frame(d = g1,directed = F)# g1<-data.frame(g1$ssbm,g1$uid)# x<-par(bg="white") V(g2) #查看顶点E(g2) #查看边plot(g...

2018-05-07 10:42:21 324

转载转：R igraph社团发现算法测试(全)

存下来，实践下。R相关的介绍：http://igraph.wikidot.com/community-detection-in-r原文地址：http://blog.sina.com.cn/s/blog_153999aac0102vzk5.htmligraph是复杂网络分析的一个强有力的工具，纯C语言写的开源工具库，也提供了关于R和python的一些接口。里面也包含了许多模块，其中社团发现的算法就包...

2018-04-26 17:07:48 7034

原创格式化盘并挂载

购买服务器后，需要先格式化盘，再mount，方可使用全部的盘。mkfs.ext4 /dev/sdbmount /dev/sdb /home---------上传和下载文件可以用 sudo apt-get install lrsz然后输入命令 lr ,sz 上传下载文件，有弹出框可选。...

2018-04-19 09:50:42 398

原创第一个d3.js的应用

太开心了，我居然调通了一个d3.js的demo，简直是打开了html的大门！就是按照 http://bl.ocks.org/robschmuecker/7880033 模仿的，替换里面的json数据确实只需要3个文件，index. .... 待续...

2018-03-21 13:46:22 551

原创由slidify引发的关于内部交流的方式

突然需要做一个内部的交流报告，不知怎么的突然想到了slidify，然后又把之前第一次做的记录翻开来重新弄了一遍，废了好大的劲，效果也平平。再次回顾记录如下：环境准备如下：1.下载R,Rstudio,miktex,Rtools 双击安装2.打开Rstudio，开始安装devtools可以使用install.packages("devtools")如果速度很慢，那么就去Rstudio的Tools-&g...

2018-03-16 16:02:06 443

转载数据分析知识网梳理

很久之前在微信上看到的对人工智能不同层次的数理，收获是这份知识单考虑了数据分析的哲学========================================人工智能的深渊来自：微信号“全球人工智能”不同层对人工智能的理解水平第一层：小白水平奇点、机器人、机器人三定律、图灵测试、消灭工作、毁灭人类、西部世界、意识、阿尔法狗第二层：看懂正经科技媒体水平机器学习、神经网络、深度学习、数据挖...

2018-02-16 20:02:32 1069

原创读取dbf文件

用R读取library(foreign)dt<-read.dbf("201601XXB.dbf")重新写出来的时候，发现有些行错列，此时用write.xlsx会更加准确，比write.table,wirte.csv用Python读取from dbfread import DBFtable = DBF('people.dbf')读取dbf目前用R报错率更低--- 导数据中遇到的问题：1）在c...

2018-02-10 23:51:10 6777

原创 Python的Django真滴烦，占个坑先

照着书上的代码，抄了几段。最后有个bug怎么都改不好，暂时先写到这……# 安装 Djangowget https://www.djangoproject.com/m/releases/2.0/Django-2.0.1.tar.gztar zxvf Django-2.0.1.tar.gzcd Django-2.0.1/python -m pip insta

2018-01-15 23:02:16 895

原创三种DRGs的实现

被领导要求着看了些drgs的东西，找了2个分组方法和单位自己的进行比较。第一个是最早的drgs分组方法，来自yale大学的，流程如下用R实现：library(rpart)library(rpart.plot)library(rattle)library(RColorBrewer)setwd("D://test//data//")filename<-c('a'

2017-12-19 17:33:36 4858

原创 spark是什么，就看看

Spark实现的是实时查询、批处理，流处理功能三合一

2017-08-14 17:30:23 342

原创用sqlplus导出oracle数据

当初装oracle数据库的时候比较混乱，账号密码没记清，最后导致odbc建不起来，没法让oracle直接和R连接起来。所以只能先导出oracle里的数据到本地，再读进R.导出时候用了sqlplus sql plus 登陆 sys as sysdba -- 一定要加上 as sysdba 不然总是报错spool d:\a.csvselect ksmc || ',' ||

2017-07-03 11:31:38 6014

原创【学习笔记】特征工程(1)

构建特征（转换）原始数据的变量本身就是一个特征，有时会对其中部分变量进行一些转换，这样做可能会提高模型的稳定性和准确率。常见的特征构建（转换）方式有：标准化x'=(x-μ)/σ，即原始数值减去均值除以标差，对原始变量进行了对中和归一，去掉幅度的影响归一化x'=(x-MinValue)/(MaxValue-MinValue)，实现将原始变

2017-06-23 14:49:23 746

原创 md5`加密2：udf简单实现

首先编写udf的java文件除了导入hadoop里面的jar包之外（hadoop/share/hadoop/ : common 以及common里的lib ,mapreduce 以及mapredure 里面的lib; yarn 以及yarn里面的lib）还需要导入hive里面的lib所有jar包接下来是java主体部分，是把之前java上实现的拿来改一些地方：packa

2017-06-20 17:01:56 1269

原创我装hive的记录

需要事先安装好hadoop,mysql进入mysql以后设置一下：createdatabase hive;createuser 'hive'@'%' identified by '密码';grantall on *.* to hive@'%' identified by '密码';flushprivileges;接下来只剩下修改hive的配置，主要修改h

2017-06-20 12:48:42 399

原创【微信小编】关联规则图

今天终于知道以前看到的关联规则图是怎么画出来的了。效果图如下：setwd("D://test//")testdt<-read.csv("test.csv",header = TRUE,sep="\t")head(testdt)trans5<- as(split(testdt[,"disease_tp"], testdt[,"zjhm"]), "transactions

2017-06-15 17:28:49 2598 3

转载 md5`加密1：java简单实现

package md5testatest;import java.io.UnsupportedEncodingException;import java.security.MessageDigest;import java.security.NoSuchAlgorithmException;import sun.misc.BASE64Encoder;public class Md5t

2017-06-13 09:38:12 518

原创 py3 爬虫设置user-agent

爬网页的时候，明明网址是正确的，但是用python爬网页返回 not fount 404错误网上查了结果是需要设置 user-agent# -*- coding:utf-8 -*-import urllib.requestimport re# install proxy# url ="http://www.cnblogs.com/GuoYaxiang/p/6232831.html

2017-06-12 17:11:08 1131 1

原创线性相关系数

问题是这样开始的：在处理数据时，无意中发现年龄和费用的均值呈现了过分好的线性相关性如下图所展示的：用肉眼就可以看出他们线性相关性很大经过计算，皮尔逊相关系数达到0.983。年龄和费用均值之间的线性相关性居然有那么高么？根据经验，规律好得不可思议，肯定有问题。。。尝试考察下这个正相关系数的可靠性：用的单变量线性回归

2017-06-09 14:27:19 7397

原创尝试按行分割一个4G的csv文件

同事有个4G的csv想另存为xlsx，然后我正好手头没事，就帮她一起想办法。试了好多方法：1）先是用ue试着打开，确实打开了，但是不能另存为为xlsx，一直长时间假死。2）用R读取这个文件，然后另存为xlsx …… library(xlsx)setwd("D://test//")dt<-read.csv("WK.csv",header = T)head(dt)write.x

2017-05-26 11:30:36 2243

原创 qq群30天发言人数

一个亲友小群，群等级降到了2级，然后一个小伙伴不辞辛劳地跳出来跟大家唠嗑，想提升群等级。仔细看了下群等级的规则机智的我怀疑是群主没给群充值，其他人无法通过入群申请，所以群等级下降了。证实下自己的猜测，从网上找了个用R分析qq群聊天的代码，涂涂改改setwd("D://test//")dt <- read.table("dt.txt",header = FALSE,

2017-05-23 15:22:19 1425

原创【微信小编】动态地图gif制作

上面的图是用echarts做的，拙劣的代码如下：option = { timeline:{ data:[ '2013-01-01','2014-01-01','2015-01-01','2016-01-01' ], label : { formatter : function(s) {

2017-05-19 12:06:15 4507 1

原创【微信小编】螺旋图

下面这个图也是用雷达图画的，学习了网上制作这个图的画法，尝试自己做了一个。数据表格是另外有个好用的在线画图网站，真是棒棒的： http://rawgraphs.io/

2017-05-12 17:12:17 415

原创清洗数据：原始数据和码表比对中文字个数[mysql]

DELIMITER $$CREATE DEFINER=`root`@`localhost` PROCEDURE `proc_count_20161015`()begin declare v_sql varchar(1000); declare j ,jmax,i,icnt int; declare k int; declare kword,jdisease_name,i

2017-04-24 10:27:18 616

原创【微信小编】矩形树图、雷达图

矩形树图：如下，上半部分就是矩形树图可以用R来画：library(treemap)library(d3Tree)setwd("D://test//")ap.d <- read.csv("wrd2.csv",header = T)tm2其中wrd2.csv 是雷达图的实例：这个是借助excel的雷达图画的，详见：http://

2017-04-24 10:03:10 1896

转载 wordcount的mr java代码

package wordcount;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritabl

2017-04-10 14:11:38 893

原创微信小编

看了几页画图的书，想着画成差不多下面那个样子真的动手了，发现好难！我可能需要会ps 有一个绘画板，还有一定的设计审美能力！只好暂时放弃，还是回归传统。微信编辑需要用到的网站和网上搜到的一样：秀米和 135 http://xiumi.us/#/studio/papers不过编辑起来还是很麻烦操刀之前，多看一些其他人的作品培养下感觉 is a must

2017-03-28 22:45:20 387

原创 window上装python,pip

是真的心塞，linux机子一言不合就硬件坏掉了，只好在自己win8机子上装python.下载python 执行exe文件找到电脑设置环境变量的地方，在变量path下增加python的路径，默认：C:\Python27 就是包含python.exe文件的位置设置完这个变量后重新打开cmd窗口，输入python可以直接进入python运行窗口下载pycharm执行exe文件

2017-03-27 22:42:00 306

原创一个有点慢的爬虫

爬一定量百度贴吧上的帖子题目和题目下一层的几点儿文字描述主要是先分析下抑郁症患者主要在聊些什么优点只有勉强贴近完成需求缺点很多：1）速度慢，几乎是5秒才一条帖子2）不明原因卡主，还不报错，大概是设计了重试的次数，但是不知道是否起作用3）没有加入如果ip被封的应对代码唉=。= 先硬着头皮上吧 #!/usr/bin/python# -*

2017-03-26 20:59:43 544

转载 R ggplot常用

点形状： http://www.cookbook-r.com/Graphs/Shapes_and_line_types/颜色名称： http://sape.inf.usi.ch/quick-reference/ggplot2/colour

2017-02-07 10:17:05 530

原创 ggolt2数据分析与图形艺术学习记录

library(ggplot2)dsmallqplot(carat,price,data=dsmall,shape=cut,colour=color)# use attribute "alpha" to detect overlaps # Denominator presents how many points overlapped can make totally

2017-01-24 13:51:24 2424

原创装电脑小结：装ubuntu,hadoop,eclipse

花了2个晚上把自己的笔记本装成了ubuntu 调通了hadoop真是好激动，都不舍得关机了。--------------------------- 装linux 选了ubuntu其实还是稀里糊涂的，不过有几点似乎是必须要做的1）window系统上使用分盘工具，把win系统不在的盘分一下2）刻录一个可以启动的ubuntu系统盘（第一次知道原来系统盘和一般U盘是不同的）

2017-01-09 23:56:47 326

转载临兵斗者皆阵列在前详解

from http://bbs.hefei.cc/thread-13825991-1-1.html临、兵、斗、者、皆、阵、列、在、前九字真言，又名奥义九字，分别为：临、兵、斗、者、皆、阵、列、在、前九字，往往也有人将“阵”做“陈”字，大概是被两者的繁写体搞混的缘故，与之相对应的九个手印（说是九个，其实不过是个虚名，可以从中化出恒河沙数的手印来，又名奥义九字切，括号内是异译法）分别为：

2016-12-06 11:25:14 7915

转载唐朝科举制度

from http://tangchao.baike.com/article-76843.html唐代考试科目分常科和制科，每年分期举行的叫常科，由皇帝临时下诏举行的考试称制科。常科有：秀才科，明经科，进士科，俊士科，明法科，明字科，明算科，一史科，三史科，道举科，童子科等50多种。秀才一科，在唐初的要求极高，很少有人能通过，后来渐渐废掉了。俊士科不常举行。考试的方式有：口

2016-12-06 11:22:03 1041

转载 python 连接mysql 并传入数据

转载自 http://www.cnblogs.com/fnng/p/3565912.html一，安装mysql 如果是windows 用户，mysql 的安装非常简单，直接下载安装文件，双击安装文件一步一步进行操作即可。Linux 下的安装可能会更加简单，除了下载安装包进行安装外，一般的linux 仓库中都会有mysql ，我们只需要通过一个命令就可以下载安装：

2016-11-14 14:01:19 1117

原创容易忘记的解决R中文乱码方法

1）txt导入R 参考语句：（需要保证txt用utf-8保存）dt2）mysql导入R参考语句：library(RODBC)channelsqlTables(channel)querydt备注：其中odbcConnect里面的testmysql是需要在odbc数据源管理里面自己配的参考图

2016-10-28 15:48:42 2211

空空如也

空空如也