- 博客(67)
- 资源 (8)
- 收藏
- 关注
原创 seaborn joinplot
import scipy.stats as scidef pearson(x,y): r,p = stats.pearsonr(x,y)sns.jointplot('Comedy','Adventure',pivot,kind='reg',color='g',stat_func=sci.pearsonr)显示图标import scipy.stats as scidef p...
2019-12-03 15:10:11 999
原创 r语言筛选列
数据格式如下: a b c d e 1 2 3 4 5 使用select过滤不要的列 df[,-which(names(df)%in%c("a","b")] subset(df,select=-c(a,b)) 使用select选择想要的列 df[ , c("x","y")] subset(df, select=c(x,y)) write.tab...
2019-11-13 19:34:03 10865
原创 错误 With R version 3.5 or greater, install Bioconductor packages using BiocManager; see..
在使用如下代码安装Bioconductor来源的package时,source("https://bioconductor.org/biocLite.R")biocLite("apeglm")遇到如下报错:错误: With R version 3.5 or greater, install Bioconductor packages using BiocManager; see...
2019-11-06 15:24:34 19824 2
原创 Error in DESeqDataSet(se, design = design, ignoreRank) : some values in assay are negative
原代码: dds <- DESeqDataSetFromMatrix(countData = exprSet, colData = colData, design = ~ group_list)错误原因:exprSet中存在负值 -1纠正:将矩阵中-1...
2019-11-05 13:19:28 25646 5
原创 TCGA数据 ENSG编号转为Symbol(基因名称)
当想查看对应的差异基因对应的Symbol(基因名称)的时候,发现基因为编码为ENSG开头的一串数字,Ensembl基因的ID# 安装包source("https://bioconductor.org/biocLite.R")biocLite("AnnotationDbi")biocLite("org.Hs.eg.db")# 加载包library(stats4)librar...
2019-11-04 18:33:12 21092
原创 excel生成笛卡尔积的形式
由于要在数据库中插入一系列的数据,故用到excel来进行处理 首先我们有两列数据,如图左边标红部分,右边为最终效果: 创建辅助列D列,主要用于后面的快速填充,操作方法:在D2中输入1,选择“填充”功能的等差序列,终止值为A列行数与B列行数的乘积,此处为18x55=990 在E列中编辑公式,E2单元格中输入: =INDEX(A:A,INT((ROW(...
2019-05-28 15:59:56 10136 1
原创 《python数据分析与挖掘实战》拉格朗日法进行插补
import pandas as pdfrom scipy.interpolate import lagrangeinputfile = './data/catering_sale.xls'outputfile = 'sales.xls'data = pd.read_excel(inputfile)row_indexs = (data[u'销量'] < 400) | (data[...
2018-10-26 17:29:37 1073 5
原创 《python数据分析与挖掘实战》matplotlib例子
绘制正弦函数import matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['SimHei'] #用来正常显示中文标签plt.rcParams['axes.unicode_minus'] = False #用来正常显示负号plt.figure(figsize = (7,5))#创建图像区域,制定比例import nu...
2018-10-26 15:52:03 844
原创 data.boxplot
餐饮销额数据异常值检测代码按着书上代码敲了一遍出现如下错误需要将源代码改为p = data.boxplot(return_type = 'dict')整体代码如下所示:#encoding:utf-8import pandas as pdimport matplotlib.pyplot as pltcatering_sale = './data/catering_sal...
2018-10-19 20:20:16 1567 1
原创 pycharm显示行数
File --> Settings -->Editor -->Appearance , 之后勾选Show Line Numbers。
2018-10-19 19:11:19 2887
原创 shell for循环
# /bin/basha="mango"b="xps"for i in {20180908..20180930}do/usr/bin/beeline -u "jdbc:hive2://dsrv1.heracles.sohuno.com:10000/mbadp;principal=hive/dsrv1.heracles.sohuno.com@HERACLES.SOHUNO.COM" --h...
2018-10-15 09:28:47 395
原创 hive 提取时间戳的小时
select from_unixtime(cast(ts as bigint), 'HH') as date, act, count(objid), count(distinct imei)from mbadp.t_ods_app_news_user_behaviorwhere dt = 20180820group by from_unixtime(cast(ts as bigint), '...
2018-09-27 15:16:34 32731
原创 shell的一个输入依赖于另一个值
# /bin/bashdt1=$1dt2=$2source=$3source1=$source'_city'echo $dt1,$dt2,$source,$source1 source1的值依赖于source的输入
2018-09-21 10:27:55 260
原创 python plt图表中文字大小调节
plt.title("Feature importances", fontsize=30)plt.xticks(fontsize=30)plt.yticks(fontsize=30)# 设置坐标标签字体大小ax.set_xlabel(..., fontsize=30)ax.set_ylabel(..., fontsize=30)# 设置图例字体大小plt.show()...
2018-09-06 15:44:04 18823
原创 python快捷键
Ctrl + / 注释(取消注释)选择的行Ctrl+Shift+F 高级查找Ctrl+Enter 补全Shift + Enter 开始新行TAB Shift+TAB 缩进/取消缩进所选择的行Ctrl + Alt + I 自动缩进行Ctrl + Y 删除当前插入符所在的行Ctrl + D 复制当前行、或者选择的块Ctrl + Shift + J 合并行Ctrl +...
2018-08-31 19:21:23 229
原创 python品牌探针开发
数据格式如下有每个品牌的关注imei#encoding:utf-8import osimport pandas as pduv_table = pd.read_table('nan1.txt', sep = '\t', encoding = 'utf-8')print(uv_table.columns)uv_table['uv1'] = 1brand_list = ...
2018-08-30 19:42:44 652
原创 R语言Error in hist.default() : 'x'必需为数值
hist(as.numeric(employees$received),breaks=50)
2018-08-20 16:07:44 42057 7
原创 将dataframe中一列的某个值换一下
data_join_uv['category'] = data_join_uv['category'].map(lambda x : '商业兴趣')将data_join_uv中的值换为'商业兴趣'
2018-08-20 15:35:58 4524
原创 筛选列dataframe列为数字的数据
问题:因为要对列进行处理,然而列中有数字还有乱码符号data1为要处理的数据,列atx为要处理的列data1['t'] = data1['atx'].str.isdigit()data1 = data1[data1['t'] == True] ...
2018-08-20 14:35:28 6498 1
原创 爬虫爬取太平洋汽车的评论
#encoding:utf-8import urllibimport urllib.requestfrom bs4 import BeautifulSoupimport reimport randomimport timeimport html5lib# 设置目标url,使用urllib.request.Request创建请求url0 = "http://price.pcau...
2018-08-16 11:04:46 1657
原创 文本处理
文本格式文本处理结果:代码:#encoding:utf-8import randomfrom random import randintoldf=open('test.txt','r',encoding='utf-8')newf=open('baolai1.txt','w',encoding = 'utf-8')lines=oldf.readlines()#1...
2018-08-16 11:03:47 163
原创 python 热力图heatmap
python的热力图是用皮尔逊相关系数来查看两者之间的关联性#encoding:utf-8import numpy as npimport pandas as pdfrom matplotlib import pyplot as pltfrom matplotlib import cmfrom matplotlib import axesimport pylabpylab.mp...
2018-08-13 10:20:43 9234 1
原创 从一个文件中随机的选取700万行数据
从一个文件中随机的选取700万行数据#encoding:utf-8import randomfrom random import randintoldf=open('0807.txt','r')newf=open('newfile.txt','w')n = 0resultList = random.sample(range(0,16203118),7000000) # samp...
2018-08-07 16:29:45 1397 1
原创 将多个csv文件写入同一个excel中的不同sheet表中
pandas 的Dataframe的to_csv()会覆盖掉之前写入的表,最终导致excel中只有一个sheet所以在这里用ExcelWriter实现写多个sheet# coding=utf_8_sigimport pandas as pdfrom openpyxl import load_workbookimport osos.chdir('E:/pycharm/Test/pr...
2018-08-01 15:07:36 10801
原创 pandas dataframe to_csv多一列的问题以及to_csv参数详解
df.to_csv("test.csv",encoding='utf-8',index=False)在后面加上index = False即可Write DataFrame to a comma-separated values (csv) fileParameters: path_or_buf : string or file handle, default None...
2018-08-01 11:10:02 14120
原创 DtypeWarning: Columns (5) have mixed types. Specify dtype option on import or set low_memory=False
需要在代码中加这个:df = pd.read_csv('somefile.csv', low_memory=False)pandas.read_csv参数整理读取CSV(逗号分割)文件到DataFrame也支持文件的部分导入和选择迭代更多帮助参见:http://pandas.pydata.org/pandas-docs/stable/io.html参数:low_me...
2018-08-01 10:29:48 13071
原创 ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.
不能使用or and 需要用|和&来代替p = p[(p['category'] == u'视频兴趣PV')|(p['category'] == u'阅读兴趣PV')]
2018-07-31 18:03:51 5612
转载 正则表达式总结
1. 正则表达式语法 1.1 字符与字符类 1 特殊字符:\.^$?+*{}[]()| 以上特殊字符要想使用字面值,必须使用\进行转义 2 字符类 1. 包含在[]中的一个或者多个字符被称为字符类,字符类在匹配时如果没有指定量词则只会匹配其中的一个。 2. 字符类内可以指定范围,比如[a-zA-Z0-9]表示a到z,A到Z,0到9之间的...
2018-07-31 15:18:40 369
转载 常用正则表达式总结
一、校验数字的表达式1 数字:^[0-9]*$ 2 n位的数字:^\d{n}$3 至少n位的数字:^\d{n,}$ 4 m-n位的数字:^\d{m,n}$ 5 零和非零开头的数字:^(0|[1-9][0-9]*)$ 6 非零开头的最多带两位小数的数字:^([1-9][0-9]*)+(.[0-9]{1,2})?$ 7 带1-2位小数的正数或负数:^(\-)?\d+(\.\...
2018-07-31 15:17:01 130
原创 将多个txt文本写入excel的不同sheet表中
需求:将txt文本中的数据插入到excel中的不同表中,并为每个sheet表添加表头如果在txt文本中已经有表头,则只需要建立个list列表,将txt名写入列表中,遍历list列表,然后将txt文本写入excel中因为文件过大,所以这里用了openpyxl,xlwt仅能插入255行,不能满足数据量大的情况# coding=utf-8import osfrom openpyxl i...
2018-07-31 15:14:08 5314
原创 Python进制转换
二进制 八进制 十进制 十六进制 二进制 a = str(num) a = str(num) bin(dec) a = str(num) 八进制 oct(int(a,2)) oct(int(a,8)) oct(dec) oct(int(a,16)) 十进制 int(a,2) int(...
2018-07-31 15:07:51 309
原创 python merge错误ValueError: You are trying to merge on object and int64 columns.
python 在用merge函数的时候出现这种错误修改方法:city['city_num'] = pd.to_numeric(city['city_num'], errors='coerce') 将连接列都用这个函数进行转换使用to_numeric转为数值。默认情况下,它不能处理字母型的字符串'pandas'可以将无效值强制转换为NaN city['city_num'] =...
2018-07-31 14:45:26 15889
原创 pandas修改列名
在做文本分析的时候,修改一个DataFrame的column名称,总结如下: 数据如下:方法一:暴力方法>>>a.columns = ['a','b','c']>>>a a b c0 1 4 71 2 5 82 3 6 9但是缺点是必须写三个,要不报错。方法二:较好的方法>>>a.r...
2018-07-31 14:38:36 1722
原创 python 写出csv文件乱码
all.to_csv('city.csv',encoding='utf_8_sig')1)程序输出中出现乱码的原因是因为python2中中文编码的问题,需要注意的是要将处理的中文文件的编码和python源文件的编码保持一致,这样不会出现中文乱码。2)在程序中能够正常输出中文,但是导出到文件后使用excel打开是出现中文乱码是因为excel能够正确识别用gb2312、gbk、gb18030...
2018-07-31 10:36:55 1485
原创 IEEE 会议链接问题
已经确定了页数,对这两页的段落进行选中,然后鼠标右键->复制外链接,这时候文本中会选出有外链接的词然后选中这个词,鼠标右键->删除外链接OK...
2018-07-26 15:55:43 453
原创 IEEE会议论文 PDF嵌入问题 not embedded
Adobe Acrobat 9.0 Pro用福昕阅读器查看字体是否嵌入【step1】: 下载 acrobat下载地址:https://pan.baidu.com/s/1qUMuTifDj1eF_Bj1x26j4Q【step2】: 安装完 acrobat后, 如下操作:文件-》 打印-》选中打印到 adobe pdf-》 属性 -》 pdf 设置 -》编辑 -》添加【...
2018-07-26 15:40:59 1284
原创 shell 文件夹操作
文件夹的删除:rm -rf 文件夹名下载文件夹到本地:下载dir目录下的所有文件,不包含dir下的文件夹:sz dir/*
2018-07-23 16:39:28 473
转载 shell '\r': command not found
当我们执行 shell 脚本的时候提示 '\r': command not found,但是检查了很多次并没有发现什么问题。原因是 windows 下的换行符是 \r\n,而 linux 下的换行符是 \n,所以只要执行下面的命令把 \r 去掉就可以了。sed -i 's/\r$//' <filename>#转化为unix格式 sed -i 's/\r$//' <fi...
2018-07-23 15:58:40 1780
原创 shell编程运算符
算数运算符下表列出了常用的算术运算符,假定变量 a 为 10,变量 b 为 20:运算符 说明 举例+ 加法 `expr $a + $b` 结果为 30。- 减法 `expr $a - $b` 结果为 -10。* 乘法 `expr $a \* $b` 结果为 200。/ 除法 `expr $b / $a` 结果为 2。%...
2018-07-18 16:29:51 228
element饿了么axure组件库2.0
2020-12-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人