小dain点儿
水...琥珀
数据挖掘,自然语言处理,如果恰巧你也是,同行!
展开
-
一瞬间的触动:PageRank
摘自《数学之美》在互联网上,如果一个网页被很多其他网页所链接,说明它受到普遍的承认和信赖,那么它的排名就高。这就是PageRank的核心思想。当然Google的PageRank算法实际上要复杂得多。比如说,对来自不同网页的链接区别对待,因为那些排名高的网页的链接更可靠,于是要给这些链接以较大的权重。这就好比在现实世界中股东大会里的表决,要考虑每个股东的表决权( Voting Power),拥...原创 2018-07-26 11:38:23 · 194 阅读 · 0 评论 -
python小点dian儿:去除txt/json重复行
目录去除重复行(法一:利用内置set)去除重复行(法二:建造list或set检查是否已存在)按行写入json/txt文件查看文件行数长度factfile_path 为json文件casefile_path 为txt文件去除重复行(法一:利用内置set)先了解Python splitlines()用法str.splitlines([keepends])按照行...原创 2018-12-20 22:12:52 · 1789 阅读 · 0 评论 -
Python小点dian儿:sort疑问大全
遇到了就刨根问题,补补python基础吧。数据会清理,特征会派生,模型会跑,参数能调,但始终还是有漏洞,或者术语不可名状。python 去重,并保持列表原来顺序list_a = ['cc', 'bbb', 'dda','bbbb', 'cc', 'sss', 'fase']list_new = list(set(list_a))list_new.sort(key = list_a.i...原创 2018-12-04 17:55:14 · 271 阅读 · 0 评论 -
python小点dian儿:使用merge还是join
合并():要注意使用merge还是join#merge是因为两个合并的对象,有相同的列,merge以这些相同的列为索引进行合并,默认内连接('inner'join),可通过参数how来设置左连接,右连接,全连接其他链接方式。下面的栗子按照索引合并,就会出现两个sorce,不可以join#join实现按索引合并,而不管他们有么有相同的列,默认链接键上的左连接,同样可以通过参数how更改.同时可...原创 2018-10-20 16:42:17 · 2768 阅读 · 4 评论 -
小点dian儿:pandas数据存入文件,行索引处理
小点dian儿:存入数据的时候,我们希望对数据在系统的行名 保存或者不保存参数:index=None:(类似,header=False不保存列名)在我们不进行如上的设计的时候,系统或分配默认的行index:0,1,2..在我们将运行结果存入文件,如果不加以设置,将会把这一index列,存入数据文件。(我们已经做好如上涉及,我们希望user_id,和结果同时被记录,则不需要如下index是否...原创 2018-10-10 22:26:08 · 768 阅读 · 0 评论 -
Python 打印显示设置
设置显示最大行pd.set_option('display.max_rows', None) # 设置显示最大行设置显示最大列pd.set_option('display.width', 200)原创 2018-10-05 22:31:56 · 1595 阅读 · 0 评论 -
python小点dian儿:DataFrame 取一列,类型是series 还是 DataFrame?
发现一个小点dian儿一个 DataFrame 取一列,不同的表示方法,名字是不是列表,会影响得到的结果的类型series 或者 DataFrame. python果真是好入手,不好学精呀,之前一直知道取一列后类型会改变问serious,每次都要小心的进行处理,现在发现了这个奥妙,Python也真是强。print("------df---------")print(df)prin...原创 2018-10-09 22:30:54 · 12435 阅读 · 3 评论 -
Python小点dian儿: 按列条件筛选、删除DataFrame的整行
pandas删除指定行遇到清洗数据的问题,需要把某一列数据中,那些为指定元素的数据,整行去除尝试了drop却不能到达理想的效果,drop仅仅删除了第一个。isin效果理想。import pandas as pddf = pd.DataFrame({"key":['green','red', 'blue'], "data1":['a','b','c'],"...原创 2018-09-25 17:38:58 · 26363 阅读 · 2 评论 -
Python小点dian儿: ValueError: invalid literal for int() with base 10
对于一种的字符串(整数字符,加了引号),这种可以int(“num”)即可达到效果,同理int类型的数据,str(num),就可以实现 "num"的类型转换:>>> int("3")3>>> str(3)'3'>>> int(1.23)1>>> int("3"原创 2018-09-13 15:35:16 · 1699 阅读 · 0 评论 -
查看Python安装包的版本
>>>import pandas as pd>>> pd.__version__'0.18.1'原创 2018-09-10 22:28:09 · 7499 阅读 · 0 评论 -
Python小点dian儿: Python-Pandas-DataFrame 如何把df变为以数据中的某一列为index
目录 我们在读入数据的时候,数据本来有它自身的user_id,这行数据又是不进入模型训练的。我们怎么处理呢? 法一:文件读入阶段小点dian儿:,读入文件的几行,参数:nrows=行数法二:在DateFrame阶段设置:小点dian儿::读入文件的指定列,参数:usecols=["列名1',"列名2",.....],及前几行,参数:nrows=行数。小点...原创 2018-09-08 11:44:02 · 18919 阅读 · 2 评论 -
使用Python搭建简单的windows服务器
目的一:实现局域网内静态文件的发放;第一步:服务器开启。根据python版本的不同,在指定文件夹内的cmd下键入如下命令。(此文件夹是要对外的文件)python2输入:python -m SimpleHTTPServer 8000python3输入:python -m http.server 8000这个8000是端口号,可自定义选择未被占用的端口。运行后提示...原创 2018-09-04 17:05:31 · 7961 阅读 · 3 评论 -
Python小点dian儿: 读取一个目录下目录和文件
目录代码一: 输出文件目录相关内容代码二:输出一个目录下所有文件名字(第一层)代码三:返回当前路径下所有层的文件路径列表代码四:依次从内层到外层获取当前路径下文件(改造自代码三),也可直接代码一获取代码五:获取当前路径下一层指定后缀文件列表(多层可改造代码三)代码一: 输出文件目录相关内容os.walk(file_dir)从外到内获取多层# -*- cod...原创 2019-01-10 21:10:27 · 1145 阅读 · 0 评论