![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python
文章平均质量分 50
Sun_Weiss
这个作者很懒,什么都没留下…
展开
-
Python实现控制变量匹配抽样(对照匹配 case-control matching)
在保证对照组和实验组,在控制变量上属性相同的基础上,进行随机抽样。原创 2023-12-19 19:34:59 · 985 阅读 · 0 评论 -
Pandas pivot 数据透视之后,去除多余列索引,转换行索引
去除、转换Pandas数据透视后的行、列索引原创 2023-05-05 23:12:43 · 1894 阅读 · 1 评论 -
numpy数组运算的广播机制
numpy的广播机制原创 2023-01-16 18:19:45 · 251 阅读 · 0 评论 -
Pandas选择数据的方法:df[] / df.loc[x, y] / df.iloc[i, j]
Pandas主要通过索引来定位和获取数据。有df[] df.loc[x, y] df.iloc[i, j] 等几种常见的方式。原创 2022-06-17 18:04:10 · 974 阅读 · 0 评论 -
python和pandas,求每一行最大的5个值,输出对应的列名和值
多个分类的比例或数值,需要找到每一行最大的5个(或者n个)比例或数值,以及它们对应的类别,并输出原创 2022-05-19 15:17:47 · 2517 阅读 · 0 评论 -
python批量下载文件
在已经有文件url的前提下,批量下载文件。在excel文档中,保存url和文件名/编号。request读取网页内容,filetype判断文件类型,批量下载保存。# -*- coding: utf-8 -*-"""Created on Mon Feb 22 10:24:35 2021@author: weisssun"""import requestsimport pandas as pdimport filetypemyHeaders = {'User-Agent': "M原创 2021-02-22 11:40:50 · 5395 阅读 · 0 评论 -
走出数据泥沼:数据清理第1步——来个简单粗暴的描述性统计吧
如果你完成了数据的审查,确认了第0步中每个问题的答案,这份数据的确符合你的需求。接下来就要审核一下数据中存在的问题了。一份原始的脏数据可能存在多少种问题?那恐怕是数也数不清的,常见的大概有:空白值与缺失值——数据空白——程序是区分不出空白值和缺失值的,只能由你区分错误值与极端值——错误或超出合理范围的取值——什么叫“合理”也是你来定义的重复值——重复变量和重复个案多值——某个变量在某个个案上有多个值——这是没法进入数据分析的,多半会被程序识别成字符串数据类型、格式错误这些问题,如果样本量原创 2020-12-20 22:22:20 · 487 阅读 · 0 评论 -
走出数据泥沼:数据清理第0步
走出数据泥沼作为一个数据分析工作者,你在各种教科书和各种教程中,学会了各种各样的统计分析方法:从最一般的描述性统计,到差异检验、参数估计、相关回归,再到看起来很酷炫的各种建模方法、机器学习算法。这些是很有用没错。但是他们常常忘记了告诉你,所有这一切分析和有意义的结论,都是基于干净的、完整的、每个变量和个案都清清楚楚的数据实现的。而你在实践中几乎不可能拿到这样的数据,你实际面对的数据多半充满了缺失值、错误值、重复值、乱七八糟的字符串、糟糕的格式……投入数据分析软件或程序中之后,只会收获各种报错,分析结原创 2020-12-20 21:41:28 · 153 阅读 · 0 评论 -
【吴恩达机器学习笔记】第2周 - python写代价函数/成本函数
吴恩达课程中,代码是用Octave写的,分为两个部分:1、定义代价函数;% 定义代价函数 Jfunction J = costFunctionJ(X, y, theta)m = size(X, 1); % 样本量predictions = X * theta; % 预测值sqrErrors = (predictions - y) .^2; % 预测值与真实值的方差J = 1/(2*m) * sum(sqrErrors); % 代价函数J2、给X,y,theta 赋值并调用函..原创 2020-09-21 17:11:45 · 3468 阅读 · 1 评论 -
pyhanlp安装与使用
HanLP是由何晗 @hankcs 开发的一个自然语言处理开源包,使用它可以完成中文分词、词性标注、命名实体识别、句法分析、文本分类等任务。HanLP本身是用java语言写的,github上虽然给出的是“pip install hanlp”的安装和使用方法,但我这个编程菜鸟实测用不了。要在Python里使用HanLP,可以安装pyhanlp一、Pyhanlp安装命令行安装指令:pip install pyhanlp二、java jdk-8安装但是,仅安装pyhanlp还无.原创 2020-06-25 11:08:54 · 1460 阅读 · 0 评论 -
Python+jieba+pandas+自己写的函数,简单实现用多个词典标注文本
做文本分析经常需要用词典标注,有时需要用很多个不同的词典做标注,每个词典单独跑一遍 or 每个词典都重新写代码显得很傻,所以我1. 统一了词典的格式:用excel存储,第一列是关键词,这一列对所有词典都是必需的;后面列是标签(维度划分),可能有1个或多个标签;2. 写了几个词典标注的函数,适用于:dict0-没有标签的词典;dict1-有一列标签的词典;dict2-有两列标签的词典。一般这几个就够用了,如果有更多的标签列,用相同的模式再写新的函数就行。3. 每个词典都可以通过调用这几个函数来标注原创 2020-06-19 17:20:35 · 724 阅读 · 0 评论 -
《Python3网络爬虫开发实战》爬虫有关库的安装
请求库requestspip install requestsselenium 模拟浏览器操作pip install seleniumChromeDriver 谷歌浏览器驱动下载chrome浏览器对应的chromedriver.exe版本文件将chromedriver.exe文件放到Python的Scripts目录下 / 将其路径配置到环境变量GeckoDriver 火狐浏览器驱动下载geckodriver.exe文件将geckodriver.exe文件放到Pytho原创 2020-06-17 10:13:41 · 178 阅读 · 0 评论 -
Minepy—使用python计算最大互信息系数(MIC)
MIC 即:Maximal Information Coefficient 最大互信息系数。https://blog.csdn.net/qtlyx/article/details/50780400MIC可以用来衡量线性或非线性的相互关系。算法对比https://zhuanlan.zhihu.com/p/53092905MIC算法可以通过python的m...原创 2020-04-16 17:50:26 · 12646 阅读 · 1 评论 -
Python进行批量t检验
# -*- coding: utf-8 -*-"""Created on Mon Mar 30 14:57:51 2020@author: weisssun"""import pandas as pdfrom scipy import stats#导入进行T检验的stats模块import csvdf = pd.read_excel(r'D:\Python\datafile...原创 2020-03-31 13:50:21 · 1439 阅读 · 0 评论 -
用python对字符串分词,并计算词数
# -*- coding: utf-8 -*-"""Created on Tue Mar 24 11:29:53 2020@author: weisssun"""import jiebaimport csvimport pandas as pdjieba.load_userdict(r"D:\Python\dict\userdict.txt")#加载用户词典 in...原创 2020-03-24 12:49:07 · 1774 阅读 · 0 评论 -
用python将字符串中的表情(微信表情 [ ])和普通文本拆分开来
有一堆包含表情(微信表情)的文本,要计算情绪量。表情和普通文本需要分开命中情绪词典。这里解决的是将字符串中的表情和普通文本拆分开来的问题。有两种方法:用正则表达式查找和移除表情用表情分隔符 ‘[’ 和 ‘]’ 将文本拆开,然后合并# -*- coding: utf-8 -*-"""Created on Thu Mar 19 16:37:54 2020@author: wei...原创 2020-03-19 23:37:26 · 928 阅读 · 1 评论 -
【python学习笔记】chardet模块检测编码
# -*- coding: utf-8 -*-"""Created on Wed Mar 18 14:16:16 2020@author: weisssun"""#chardet模块可以用来检测编码#判断位置编码的方法,是先收集各种编码的特征字符,根据特征字符的匹配进行判断#chardet模块已经收集了这样的特征字符#在调用该模块时,它就会将被识别数据的编码与特征字符库进行匹配,...原创 2020-03-18 15:09:36 · 271 阅读 · 0 评论 -
【python学习笔记】copy方法
# -*- coding: utf-8 -*-"""Created on Wed Mar 18 12:15:12 2020@author: weisssun"""#参考链接:https://www.runoob.com/w3cnote/python-understanding-dict-copy-shallow-or-deep.html#涉及python的数据存储方式impor...原创 2020-03-18 13:51:40 · 142 阅读 · 0 评论 -
【python学习笔记】使用xlrd读取excel文件
# -*- coding: utf-8 -*-"""Created on Wed Mar 11 14:27:05 2020@author: weisssun"""#xlrd和xlwt分别是excel读取和写入模块#但不建议使用xtwt写入excel文件#xlwt只能写入xls文件,不能写入xlsx文件#使用xlwt写入xls文件最多能支持65536行数据,如果写入过多,会报错...原创 2020-03-11 16:03:13 · 299 阅读 · 0 评论 -
使用python将excel长文本中包含特定关键词的句子提取出来
# -*- coding: utf-8 -*-"""Created on Sun Mar 1 11:20:50 2020@author: weisssun"""import reimport csvimport pandas as pd#将长文本中包含特定关键词的句子提取出来#list_5g = []pattern = r'\.|/|;|\'|`|\?|"|\~|!|...原创 2020-03-02 18:27:38 · 5730 阅读 · 8 评论 -
使用jieba分词计算txt中文本的词频
# -*- coding: utf-8 -*-"""Created on Tue Feb 25 17:37:55 2020@author: weisssun"""import jiebaimport reimport csvfrom collections import Counterstopw = [line.strip() for line in open(r'D:\P...原创 2020-03-02 18:21:02 · 486 阅读 · 0 评论 -
python合并excel文件,并将文件名作为新的一列
# -*- coding: utf-8 -*-"""Created on Mon Mar 2 10:13:57 2020@author: weisssun"""import osimport xlrdimport xlsxwriterfilePath = r'D:\Python\2020.02'#需合并的文件所在的文件夹路径f_name = os.listdir(...原创 2020-03-02 17:56:54 · 5112 阅读 · 11 评论