数据分析
文章平均质量分 58
comli_cn
算法工程师
展开
-
如何将过长的链接放到excel里面
如何将长度超过256的链接放在excel和wps里面,并实现点击跳转原创 2022-07-15 20:39:57 · 5523 阅读 · 0 评论 -
linux下文件编码格式转换方法
1. 使用iconv进行转换将使用gb18030编码的文件file1.txt转换为utf-8编码的文件file2.txt:iconv -f gb18030 -t utf-8 file1.txt -o file2.txt但是这个命令不好使,一方面容易重复转换,另一方面不支持通配符,无法成批转换,还有如果转换出错就会停止转换。可以加上-c来忽视非法字符:iconv -c -f gb18030 -t utf-8 file1.txt -o file2.txt2. iconv命令【功能】对于给定文原创 2021-10-08 14:11:58 · 11812 阅读 · 0 评论 -
Hadoop如何设置map的数量和大小
1. map数目的计算方法hadoop提供了一个设置map个数的参数mapred.map.tasks,我们可以通过这个参数来控制map的个数。但是通过这种方式设置map的个数,并不是每次都有效的。原因是mapred.map.tasks只是一个hadoop的参考数值,最终map的个数,还取决于其他的因素。为了方便介绍,先来看几个名词:block_size : hdfs的文件块大小,可以通过参数dfs.block.size设置total_size : 输入文件整体的大小input_file_num :原创 2021-08-05 12:15:33 · 3582 阅读 · 0 评论 -
蓄水池抽样
1. 蓄水池的容积为1(1)问题如何随机从n个对象中选择一个对象,这n个对象是按序排列的,但是在此之前你不知道n的值?(2)算法与证明算法:我们先将第一个对象作为备选放入蓄水池,也就是说第一个对象被放入蓄水池的概率为1,以1/21/21/2的概率选择第二个,以1/31/31/3的概率选择第三个,以此类推,以1/m1/m1/m的概率选择第m个对象。当该过程结束时,每一个对象具有相同的选中概率,即1/n1/n1/n。证明:第m个对象最终被选中的概率P=选择m的概率*其后面所有对象不被选择的概率,即P原创 2021-08-03 15:06:49 · 225 阅读 · 0 评论 -
HIVE截取字符串
1. 已知字符串长度的截取方法形式:select substr(列名, int start, int len)例子:[{'a':'1', 'b':'2', 'c':'3'}]select substr(列名, 3, 7)结果:'a':'1'2. 截取特殊字符附近的字符串比如想要截取[{'a':'1', 'b':'2', 'c':'3'}]中去掉[]剩下的字符串,在不知道上面字符串长度的情况下可以使用:select substr(列名, 2,instr(列名, '}')-1)原创 2021-07-30 20:41:51 · 9307 阅读 · 0 评论 -
.json是什么以及如何使用python的json模块从json文件读取数据
1. json文件是什么从结构上看,所有的数据(data)最终可以分解成三种类型:第一种类型是标量scalar,也就是一个单独的字符串string或数字numbers,比如“成都”这个单独的词。第二种类型是序列sequence,也就是若干个相关的数据按照一定顺序并列在一起,又叫做数组array,或者列表list,比如“成都,重庆”。第三种类型是映射mapping,也就是一个名/值name/value,即数据有一个名称,还有一个与之相对应的值,这又称作散列hash或字典dictionary,比如“蓉城原创 2021-03-31 15:24:35 · 586 阅读 · 2 评论 -
如何将.csv文件数据直接读取为numpy array型数据(np.genfromtxt()函数)
1. 函数简介(1)完整形式numpy.genfromtxt(fname, dtype=<type 'float'>, comments='#', delimiter=None, skip_header=0, skip_footer=0, converters=None, missing_values=None, filling_values=None, usecols=None, names=None, excludelist=None, deletechars=None, replace原创 2021-01-03 16:39:34 · 14733 阅读 · 5 评论 -
Pandas中set_index和reset_index的用法及区别
1.set_indexDataFrame可以通过set_index方法,可以设置单索引和复合索引。DataFrame.set_index(keys, drop=True, append=False, inplace=False, verify_integrity=False)append添加新索引,drop为False,inplace为True时,索引将会还原为列。In [307]: dataOut[307]: a b c d0 bar one z 1.01转载 2020-06-07 15:26:26 · 1396 阅读 · 0 评论 -
numpy和torch.tensor的张量的操作
张量的拼接np.concatenate((a1,a2,a3,…), axis=0)张量的拼接要用np.concatenate这个方法的,其中 a1,a2,a3,…是拼接的子张量,axis是维数,axis=0表示按照第一维进行拼接。例如将两个二维的张量按照第一维拼接成一个二维的张量:import numpy as npa=np.array([[1,2,3]])b=np.array([[4...原创 2020-03-11 16:02:46 · 1740 阅读 · 0 评论 -
用openpyxl模块处理excel表格、用pandas处理.csv表格、用xlrd处理.xls文件
安装openpyxl模块pip3 install --user openpyxl编程from openpyxl import * #导入openpyxl模块wb=load_workbook('表格名.xlsx') #读取excel表格sheet=wb[wb.sheetnames[0]] #读取excel表格中第一张表...原创 2019-11-21 15:27:54 · 676 阅读 · 0 评论 -
Pytorch的DataLoader和Dataset以及TensorDataset的源码分析和使用
1.为什么要用DataLoader和Dataset要对大量数据进行加载和处理时因为可能会出现内存不够用的情况,这时候就需要用到数据集类Dataset或TensorDataset和数据集加载类DataLoader了。使用这些类后可以将原本的数据分成小块,在需要使用的时候再一部分一本分读进内存中,而不是一开始就将所有数据读进内存中。2.Dateset的使用pytorch中的torch.utils.data.Dataset是表示数据集的抽象类,但它一般不直接使用,而是通过自定义一个数据集来使用。来自定义数据原创 2020-12-14 22:32:48 · 1014 阅读 · 2 评论 -
pandas中DataFrame的常用操作
1. DataFrame的创建(1)手动创建df = pd.DataFrame({'a':[1,2,3],'b':[1,2,3]})print(df)结果为: a b0 1 11 2 22 3 3(2)用panda导入文件数据例如导入.csv类型的文件,导入之后直接变成了DataFrame类型的数据df = pd.read_csv('/file_path/file_name.csv')2. DataFrame类型数据的提取因为DataFrame类型的数据通常原创 2020-12-23 21:49:02 · 1374 阅读 · 0 评论