- 博客(15)
- 收藏
- 关注
原创 数据挖掘笔记之数据可视化(热力图)
热力图heatmap(data,vmin,vmax,cmap,center,annot,fmt,annot_kws,linewidth, linecolor,cbar,cbar_kws,square,xticklabels,yticklabels,mask,ax)vmin,vmax:图例最大和最小显示值cmap:热力图填充色center:颜色深浅annot:每个单元显示数值fmt...
2019-07-31 16:38:21 1588
原创 数据挖掘笔记之数据可视化(散点图)
散点图matplotlibscatter(x,y,s,c,marker,cmap,norm,vmin,vmax,alpha,linewidth,edgecolors)s:散点图点的大小,传入数值型c:点的颜色marker:点的形状cmap:某点colormap值norm:数据亮度vmin,vmax:亮度设置alpha:散点透明度iris.csvimport matplot...
2019-07-31 15:58:27 981
原创 数据挖掘笔记之数据可视化(折线图)
折线图matplotlibplt.plot(x,y,linestyle,color,marker,markersize,markeredgecolor,markerfactcolor, markeredgewidth,label)marker:点形状wechat.xlsx#两种x轴显示间隔日期方法import matplotlib.dates as matespd.to_da...
2019-07-29 17:04:09 580
原创 数据挖掘笔记之数据可视化(小提琴图)
小提琴图小提琴图由核密度曲线和箱线组合而成一般使用seabornsns.violinplot(x,y,hue,data,order,hue_order,bw,cut,scale,scale_hue,gridsize, width,inner,split,dodge,orient,linewidth,color,palette,saturation,ax)hue:分组order:数...
2019-07-29 10:10:28 6007 1
原创 数据挖掘笔记之数据可视化(箱线图)
箱线图下四分位:Q1上四分位:Q3数据的下须值:Q1-1.5IQR上须值:Q3+1.5IQRmatplotlibplt.boxplot(x,north,sym,vert,whis,positions,widths,path_artist,meanline,showmeans, showcaps,showbox,showfliers,boxprops,labels,flierspr...
2019-07-29 09:53:54 2565
原创 数据挖掘笔记之数据可视化(直方图)
直方图matplotlibplt.hist(x,bins,range,normed,weight,cumulative,bottom,histtype,align, orientation,rwidth,log,color,label,stacked)bins:条形个数range:上下边界normed:频数转为频率cumulative:计数累计bottom:基准线histty...
2019-07-28 15:55:40 2020
原创 数据挖掘笔记之数据可视化(条形图)
条形图matplotlibimport matplotlib as pltplt.bar(left,height,width,bottom,color,edgecolor,linewidth,tick_label, xerr,yerr,label,ecolor,align,log,**kwargs)left:x轴上的刻度值height:y轴上的刻度width:条形图宽度默认0.8...
2019-07-27 17:04:51 1565 1
原创 数据挖掘之数据可视化(饼图)
饼图matplotlibimport matplotlib as pltplt.pie(x,explode,labels,colors,autopct,pctdistance,shadow,labeldistance,startangle,radius,counterclock,wedgeprops,textprops,center,frame)explode:突出显示autopct...
2019-07-27 13:45:13 1743
原创 数据挖掘笔记之表处理
透视表diamonds.csv透视表pd.pivot_table(data,values,index,columns,aggfunc,fill_value,margins,dropna,margins_name)values:拉入统计项的字段index:拉入行标签columns:拉入列标签aggfunc:统计函数fill_values:填充缺失值margins:显示总计值...
2019-07-27 08:39:28 134
原创 数据挖掘笔记之简单数据清洗
判断数据是否有重复值any(df.deplicated())#any函数:在多个条件判断中,只要有一个条件为True,any的结果为True。删除重复项df.drop_deplicates(inplace=True)缺失值删除法:比例小于5%或大于85%替换法:连续变量使用均值和中位数,离散使用众数插补法:回归插补,K邻近插补,拉格朗日插补判断是否有缺失值any(df.is...
2019-07-26 16:33:54 352
原创 数据挖掘笔记之Pandas
Pandas索引方式:ser = pd.Series([1,2,3,4])ser[[0,1]]读取txt,csv:pd.read_table(filepath,sep,header,names,index_col,usecols,dtype,converters,skiprows, skipfooter,nrows,na_values,skip_blank_lines,parse_...
2019-07-26 10:48:30 243 1
原创 数据挖掘笔记之Numpy
数组np.array(((1,2))) #二维数组arr[1,2] #取第二行、第三列的元素arr[np.ix_([0,1],[1,2])] #取第一二行和第二三行列np.genfromtxt(fname,dtype,comments,delimiter,skip_header,skip_footer,converters,missing_values,filling_valu...
2019-07-25 10:35:29 173
原创 自定义函数的参数
自定义函数的几种参数:①必选参数②默认参数③可变参数#任意个数据和def adds(*args): print(args) s = sum(args) return s*args:可变参数,接纳任意个数的实参,捆绑为元组。④关键字参数#组装到一个字典中def info_collection(tel,birthday,**kargs): user_info = {} u...
2019-07-24 21:22:51 2225
原创 数据挖掘笔记之基本数据格式(列表和字典)
列表列表的索引方式:①切片索引[start:end:step]包括start,不包括end。无法取得最后一个元素。②无限索引[::step]列表基本语法:list.append(1) #只能添加一个元素list.extend([]) #列表添加list.pop() #删除末尾元素list.pop(1) #删除指定位置list.remove() #删除指定元素lis...
2019-07-23 21:49:16 334
转载 爬虫学习笔记
URL统一资源定位符,是对互联网上得到的资源位置和访问方法的表示,是网上标准资源的地址。由三部分组成:①协议,②存有该资源的主机IP地址,③主机资源的具体地址。import urllibresponse = urllib.request.urlopen('http://www.baidu.com')print(response.read())urlopen(url, data, tim...
2019-07-01 09:28:58 79
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人