python
文章平均质量分 50
YouShouldKnowMe
脑电算法研究中心数据分析师,4年+数据分析经验,在数据采集、数据清洗、统计分析、数据可视化、特征工程和数据建模方面有所涉猎,个人掌握技能包括但不限于Python、SQL、SPSS/SPSSPRO、Tableau、Excel等;分析方向偏统计分析,包括但不限于描述性统计、方差分析、卡方检验、回归分析、因子分析、相关性分析、聚类分析等。
展开
-
数据分析之技术文章分享
《SQL必知必会》万字精华!原创 2022-05-31 11:12:26 · 231 阅读 · 0 评论 -
ImportError: cannot import name ‘Imputer‘ from ‘sklearn.preprocessing‘
代码from sklearn.preprocessing import Imputer报错---------------------------------------------------------------------------ImportError Traceback (most recent call last)<ipython-input-4-2e97a66a2985> in <module>原创 2021-12-24 09:50:36 · 1722 阅读 · 1 评论 -
关联规则、支持度(support)、置信度(confidence)
关联规则关联规则:用于表示数据内隐含的关联性Support(支持度):表示同时包含A和B的事务占所有事务的比例。如果用P(A)表示使用A事务的比例,那么Support=P(A&B)Confidence(可信度):表示使用包含A的事务中同时包含B事务的比例,即同时包含A和B的事务占包含A事务的比例。公式表达:Confidence=P(A&B)/P(A)Li......原创 2019-08-01 14:37:29 · 36123 阅读 · 0 评论 -
Pandas和Numpy关闭科学计数法的方式
Pandas全局设置:(显示数据的精度,可自定义修改 “%.3f” 改变数字即可)pd.set_option('float_format', lambda x: '%.3f' % x)Numpy全局设置(直接关闭科学计数法)np.set_printoptions(suppress=True)以上原创 2021-06-24 10:13:28 · 1806 阅读 · 0 评论 -
Pycharts 常用技巧(柱状图、条形图、折线图、堆叠图及多图组合) -进阶
1 数据堆叠柱状图代码from pyecharts import options as optsfrom pyecharts.charts import Barl1=['星期一','星期二','星期三','星期四','星期五','星期六','星期日']l2=[100,200,300,400,500,400,300]l3=[300,400,500,400,300,200,100]bar = ( Bar() .add_xaxis(l1) .add_yaxis("l2",原创 2021-03-30 14:36:37 · 1379 阅读 · 2 评论 -
Pycharts 常用技巧(柱状图、条形图、折线图、堆叠图及多图组合) - 基础
1 基本柱状图代码from pyecharts import options as optsfrom pyecharts.charts import Barl1 = ['星期一', '星期二', '星期三', '星期四', '星期五', '星期六', '星期日']l2 = [100, 200, 300, 400, 500, 600, 700]l3 = [111, 222, 333, 444, 333, 222, 111]bar = ( Bar() .add_xaxi原创 2021-03-30 14:18:23 · 1934 阅读 · 0 评论 -
ValueError: need at least one array to concatenate
代码求上下四分位时报错data_QuantileDown = data.quantile(0.25).round()data_QuantileUp = data.quantile(0.75).round()报错ValueError: need at least one array to concatenate原因循环求取同一工作簿文件的不同表的数据时,有一个工作表文件忘记放入数据。即数组维度为空时报此错误。解决方案向本工作表内容填充数据,即保证数组维度不为空时即可避免此错误。这种错误原创 2021-01-04 11:02:03 · 4114 阅读 · 0 评论 -
CondaIOError: Missing write permissions in: C:\ProgramData\Anaconda3
代码conda install pip错误CondaIOError: Missing write permissions in: C:\ProgramData\Anaconda3解决方法桌面打开Anaconda的Anaconda prompt 右键 以管理员身份运行结果重新输入需要进行的命令运行即可原创 2020-11-30 14:50:57 · 1130 阅读 · 0 评论 -
数据分析中的检验方法-正态性检验、非参数检验、T检验、卡方检验
原文链接已重置,详情请移步以下链接。参数检验与非参数检验。原创 2020-08-11 15:47:21 · 4009 阅读 · 0 评论 -
16种常用的数据分析方法汇总
1.频数分布分析主要通过频数分布表、条图、直方图以及集中趋势和离散趋势的各种统计量,描述数据的分布特征转载 2020-08-03 22:28:30 · 736 阅读 · 0 评论 -
urllib.error.URLError: 「urlopen error [Errno 11004] getaddrinfo failed」
代码import seaborn as snsanscombe = sns.load_dataset('tips')print(anscombe)报错urllib.error.URLError: <urlopen error [Errno 11004] getaddrinfo failed>原因及解决方法电脑配置的DNS不能使用了,只需修改DNS地址为114.114.114.114即可修改DNS链接:https://jingyan.baidu.com/article/2原创 2020-07-10 14:39:48 · 14473 阅读 · 12 评论 -
networkx
networkx有四种图 Graph 、DiGraph、MultiGraph、MultiDiGraph,分别为无多重边无向图、无多重边有向图、有多重边无向图、有多重边有向图。 建立一个空图import networkx as nxG=nx.Graph() #建立一个空图G=nx.DiGraph() #建立一个有向空图...原创 2019-08-12 09:00:03 · 2705 阅读 · 1 评论 -
快速导入各种python模块
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ 要导入的模块名称例如:pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ pymysql原创 2019-08-13 23:05:12 · 464 阅读 · 0 评论 -
非监督学习、聚类算法、K_Means算法
K_Means算法定义作为无监督聚类算法中的代表——K均值聚类(Kmeans)算法,该算法的主要作用是将相似的样本自动归到一个类别中。所谓的监督算法,就是输入样本没有对应的输出或标签。聚类(clustering)试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个“簇(cluster)”,聚类既能作为一个单独过程,用于找寻数据内在的分布结构,也可作为分类等其他学习任务的前去过...原创 2019-07-25 20:14:25 · 364 阅读 · 0 评论 -
监督学习、分类算法、KNN最近邻算法
import osimport numpy as npimport pandas as pdimport matplotlib.pyplot as plt#强制打印数组# np.set_printoptions(threshold=10000000000000000)#数据转换def data_trans(path): #获取文件夹中文件名,返回文件名数组 di...原创 2019-07-24 21:15:19 · 240 阅读 · 0 评论 -
Python代码实现单向链表
# 要实现的功能:判空,长度,遍历,从头部添加,从尾部添加,从指定位置添加,删除,查找#定义一个节点类class Node(object): def __init__(self, item): #传入的参数 self.item = item #当前节点的下一节点 self.next = None#定义一个单向链表类...原创 2019-07-17 22:41:09 · 198 阅读 · 1 评论 -
迭代器、生成器,sort和sorted函数区别,continue和break区别
迭代器定义是访问集合元素的一种方式。迭代器对象从集合的第一个元素开始访问,直到所有的元素被访问完结束。迭代器只能往前不会后退,另外,迭代器的一大优点是不要求事先准备好整个迭代过程中所有的元素。迭代器仅仅在迭代到某个元素时才计算该元素,而在这之前或之后,元素可以不存在或者被销毁。这个特点使得它特别适合用于遍历一些巨大的或是无限的集合,比如几个G的文件。迭代器是一个对象,不是一个函数...原创 2019-07-08 18:53:20 · 974 阅读 · 1 评论 -
正则表达式
Python3 正则表达式定义正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。re 模块使 Python 语言拥有全部的正则表达式功能compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。re.match函数re.match 尝试从字符串的起始位置匹配一个模式,如果不是起...转载 2019-06-26 19:33:05 · 150 阅读 · 0 评论 -
栈与队列之间的相互实现
栈与队列之间的相互实现,是面试中的经典试题。两个栈实现一个队列入队:元素进栈A出队:先判断栈B是否为空,为空则将栈A中的元素 p...转载 2019-07-19 22:26:42 · 168 阅读 · 0 评论 -
Python统计列表元素出现次数
1. 引言在使用Python的时候,通常会出现如下场景:array...转载 2019-07-23 22:27:57 · 1319 阅读 · 0 评论 -
对字典进行排序 和 list.sort()的使用
按照字典的值value进行排序.sort()方法只有列表才有,集合,字典,元祖都没有sort()方法。所以对字典进行排序的时候先将字典转化成列表。注意这里转化的时候一定是字典的items(),转化结束之后,每一个键值对是一个元祖,这些元祖就是生成的列表里的元素。sort()方法里有两个参数,一个是reverse,将它设置为True的时候,降序排序。另一个参数key,是一个函数,指定的是以什么元素...原创 2019-07-23 22:23:58 · 3632 阅读 · 1 评论 -
爬虫小技巧--随机获得请求头,Pycharm小技巧--批量添加字符
导入一个包 fake_useragent 随机获得请求头下载命令:pip install fake_useragent导入:from fake_useragent import UserAgent使用:# 随机产生一个浏览器信息headers = {"User-Agent": UserAgent().random}...原创 2019-07-03 20:59:54 · 1211 阅读 · 0 评论 -
python中魔术方法
参考链接:https://blog.csdn.net/koko66/article/details/42709279原创 2019-07-03 19:57:18 · 130 阅读 · 0 评论