- 博客(75)
- 资源 (2)
- 收藏
- 关注
原创 flink中AggregateFunction 执行步骤以及含义全网详细解释
package operator;import org.apache.flink.api.common.functions.AggregateFunction;import org.apache.flink.api.common.functions.FlatMapFunction;import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.api.common.functions.Reduce..
2020-10-20 21:16:57 2817 1
原创 2020-08-13
https://www.cnblogs.com/daizhengyang/p/13384169.html https://blog.csdn.net/qq_27289001/article/details/77150598 https://www.cnblogs.com/wujuntian/p/6821442.html 查看帮忙命令 hlep--server级别 db.he...
2020-08-13 16:22:24 223
原创 python 浅拷贝 深拷贝
----------------------不改变父对象类型----------import copya = [1, 2, 3, 4, ['a', 'b']] # 原始对象b = a # 赋值,传对象的引用c = copy.copy(a) # 对象拷贝,浅拷贝d = copy.deepcopy(a) # 对象拷贝,深拷贝a.appe...
2020-04-10 13:53:23 238
原创 #解决matplottlib显示中文的问题 # 仅适用于Windows
#解决matplottlib显示中文的问题# 仅适用于Windowsplt.rcParams['font.sans-serif']=['SimHei'] #指定默认字体plt.rcParams['axes.unicode_minus']=False #解决保存图像时符号-显示为方块的2问题...
2019-11-12 14:03:13 206
原创 自写逻辑回归(利用随机梯度下降法)
'''梯度下降法需要对每个杨讷都需要遍历。时间复杂度太大为了解决这个时间复杂度问题,我们最常用的算法其实是随机梯度下降法,可以理解成是梯度下降法的一个变种。''''''随机梯度下降法的核心思想是:每一次的迭代更新不再依赖于所有样本的梯度之和,而是仅仅依赖于其中一个样本的梯度。所以这种方法的优势很明显,通过很“便宜”的方式获得梯度,并频繁地对参数迭代更新。这里最大的问题是梯度...
2019-11-05 14:56:35 1481 1
原创 自写逻辑回归(利用梯度下降法)
import numpy as npimport matplotlib.pyplot as plt# 随机生成样本。二分类问题。每个类别生成5000个样本数据np.random.seed(12)num_observation=5000#正太分布 multivariate_normal(mean, cov, size=None, check_valid=None, tol=None...
2019-11-04 23:46:05 274
原创 KNN回归-预测二手车
'''KNN是一个典型的分类模型,就时预测类别,例如苹果,香蕉等。预测的结果是训练集上已经包含的类别,并不会预测出新的类别二手车价格预测是预测车的价格,是数值。理应按照回归算法来算怎么用knn来实现回归问题呢? 找到最近的K样本之后,我们直接取了平均作为预测值,很直观这里给出了对于数据的简单描述。Ask Price 字段是我们要预测的值,即二手车的...
2019-10-28 00:00:41 917
原创 交叉验证_一KNN为例子
'''k折交叉验证k折交叉验证里面的k并不是Knn里面的k(eighbors) 在KNN里,通过交叉验证,我们即可以得出最合适的K值。它的核心思想无非就是把一些可能的K逐个去尝试一遍,然后选出效果最好的K值。一般情况将K折交叉验证用于模型调优,找到使得模型泛化性能最优的超参值。,找到后,在全部训练集上重新训练模型,并使用独立测试集对模型性能做出最终评价。https://...
2019-10-17 11:24:47 4336
原创 knn的调用库和knn手写
from sklearn import datasetsfrom sklearn.model_selection import train_test_splitfrom sklearn.neighbors import KNeighborsClassifierimport numpy as npfrom sklearn.metrics import accuracy_scorei...
2019-10-14 23:50:18 586
原创 数据处理中 男性变为1 女性变为0
knn_train['Sex'][knn_train['Sex'] == 'male'] = 1 knn_train['Sex'][knn_train['Sex'] == 'female'] = 0
2018-11-21 22:15:17 12783
原创 while else 和for else
1.#while else 和for else# 因为else语句不是独立语句而是语句块,语句块只有当回退到和与闭合的块# 一样的缩进量时语句结束,所以else语句不会单独结束'''while else 和for else意思就是while是和else一块的。当有break或者return的时候,会跳出while块,又因为while和else是一个整体,所以就跳出el...
2018-11-11 11:15:12 11460 1
原创 dataframe中有很多维度的参数。用dataframe.plot的时候。我就只要一个维度的。(x轴默认的就是index)
#注意下面的绘制图像的简单的方法,可以直接dataframe类型的.plot results_df.plot(y=['Accuracy (%)'], kind='bar', ylim=[50, 100], ax=ax1, title='Accuracy(%)', legend=False) ax2 = plt.subplot(1, 2, 2)#(x轴默认的就是index)...
2018-10-04 20:12:20 3536
原创 图表 x轴是类别,y轴是个数。类似频率图
import seaborn as sns sns.countplot(x='price_range',data=train_data) #统计train_data总数据中price_range列中每个每个数字的个数 plt.title('Training_Data') # plt.xticks(rotation='vertical') plt.xlabe...
2018-10-04 19:38:20 1101
原创 绘图中一条直线进行上下填充
#化直线plt.semilogx(c_range,train_scores_mean,label='Training score', color='darkorange',lw=lw)#画直线上下的偏移,然后进行涂色plt.fill_between(c_range,train_scores_mean-train_scores_std, ...
2018-10-02 21:43:07 334
原创 当很多数据中比如水果类型1,2,3,水果标签苹果,例子,香蕉 很多这样的,这样给筛选出来
#创建目标标签和名称的字典 即1代表一种水果,2代表另一种水果 3代表另外一种水果fruit_name_dict=dict(zip(fruits_df['fruit_label'],fruits_df['fruit_name']))print(fruit_name_dict) #{1: 'apple', 2: 'mandarin', 3: 'orange', 4: 'lemon...
2018-10-02 21:06:18 1417
原创 根据数值型变量设置图片的颜色
%matplotlib notebookfrom mpl_toolkits.mplot3d import Axes3Dlabel_color_dict = {1: 'red', 2: 'green', 3: 'blue', 4: 'yellow'}colors = list(map(lambda label: label_color_dict[label], y_train)) #利用...
2018-09-25 15:46:51 429
原创 解决时间年份格式显示不全的bug
data=pd.read_excel('./附件1.xlsx',header=0)plt.figure(figsize=(15,6))data=data[data['doubtterr']==0]data=data[['iyear','eventid']]data=data.groupby('iyear'). count()print(data)x=data.indexy=data...
2018-09-18 18:27:40 1075
原创 设置x轴的标签,由于x轴的文字性。不太好用text #前面用range代替,一边后面text 这里在此重新返回
df_city=data_1_c.groupby('居住地').count()# print(df_city)data_2['city']=data_2['地区'].str[:-1] #map(lambda x:x[:-1] ,data_2['地区'])# print(data_2)q1data=pd.merge(df_city,data_2,left_i...
2018-09-18 17:25:56 263
原创 根据手机参数对手机价格进行预测
#---------------------------config文件夹----------------------import osimport pandas as pd# 数据集路径dataset_path = './data'# 输出集路径output_path = './output'if not os.path.exists(output_path): o...
2018-09-14 21:51:29 1175
原创 plt在两点间画图像 plt.plot([10,20],[30,40],color='gray') #误差线(10,30) (20,40) 两点画图
fig=plt.figure(figsize=(10,4))ax1=fig.add_subplot(1,2,2)plt.plot(x_test,y_test,color='r',linewidth=2,linestyle='--') #目的就是画出模型的直线plt.scatter(xtrain,ytrain,marker=',',color='k') ...
2018-09-12 19:30:24 729
原创 plt中画直方图时候,bar中会不分条形图的边界
plt.bar(range(20), y1, width=0.8, edgecolor='k', #边缘线框颜色 facecolor='yellowgreen', tick_label=q1data_20_sl['city'] #设置x轴的标签 )...
2018-09-12 16:56:50 1729
原创 eval 保留输入的类型,否则输入一个字典格式的,结果成了str类型的
lst=eval(input('输入一个列表')) #作用是会保持输入的类型。不加的话输入是数组,结果变成了str类型的
2018-09-10 02:44:13 458
原创 线程中----主线程只等待一秒。一秒过后。主线程执行。不管子线程是否执行完毕都要扼杀
import threadingimport timeevents=threading.Event()def fun_1(event): print('开始第一步,第二部正在等待中......') event.wait() print('第二部完成')t1=threading.Thread(target=fun_1,args=(events,))t1.set...
2018-09-06 11:38:58 679
转载 pyhon多线程学习——setBaemon方法
Python多线程学习 setDaemon方法2014年08月22日 16:31:13 阅读数:1975收起个人分类: Python(2)setDaemon方法:# -*- coding: utf-8 -*- import threadingimport time class myThread(threading.Thread): def __init__(self,...
2018-09-05 22:46:32 175
转载 Python 一篇学会多线程
yeayee------>更多技巧------>更多源码------>www.yeayee.comPython 一篇学会多线程多线程和多进程是什么自行google补脑,廖雪峰官网也有,但是不够简洁,有点晕,所以就整个简单的范例。 对于python 多线程的理解,我花了很长时间,搜索的大部份文章都不够通俗易懂。所以,这里力图用简单的例子,让你对多线程有个初步的认识...
2018-09-05 11:19:35 180
原创 在一张散点图中,数值大于某个值的用一种颜色。另外的数据用另一种颜色
#思路 分开画。在一张图中画两个。用不同颜色# =========================异常值分析====================# (2)箱型图分析fig = plt.figure(figsize = (10,6))ax1 = fig.add_subplot(2,1,1)color = dict(boxes='DarkGreen', whiskers='Dar...
2018-09-04 20:14:36 3591 1
原创 pandas中基本操作——如缺失值处理。等
# =====替换缺失值===data[data.isnull()] = 0 data.fillna(0,inplace=True)#====25% 和75%===sta = data['A_sale'].describe() #.describe()中有基本的数据,自己可以打印试试stb = data['B_sale'].describe()#print(sta)...
2018-09-04 13:41:35 206
原创 dataframe中用一个比较每两个数字的增长率
#========前一天减去上一天然后在除以前一天计算百分比=============#==========1============data=pd.DataFrame({'A':[1,3,5,7], 'B':[2,4,6,8]})print(data)data['百分率']=pd.Series(map(lambda x:((data['A'][x...
2018-09-03 22:09:35 3994
原创 dataframe中的小数显示为百分数(apply(匿名函数))
data['B_per%'] = data['B_per'].apply(lambda x: '%.2f%%' % (x*100))
2018-09-03 21:20:24 14093
原创 python 画图 横坐标为时间轴时如何手动控制时间 比如以3天为一个间隔。一个月30天只显示10个
import numpy as npimport pandas as pdimport osimport matplotlib.pyplot as plt#解决matplottlib显示中文的问题# 仅适用于Windowsplt.rcParams['font.sans-serif']=['SimHei'] #指定默认字体plt.rcParams['axes.unicode_minu...
2018-09-03 20:47:10 18758
转载 python中count()、values_counts()、size()函数
count()函数之详解 https://blog.csdn.net/JNingWei/article/details/78308815转载了count()函数,以便自己以后更好的查阅。string 中 某字符 的次数str.count(sub, start= 0,end=len(string)) Args Annotations sub 搜索的子字符串...
2018-09-02 19:51:52 11883 2
原创 作用将一个文件夹里的所有文件(不限层级)立面的所有文件。全部复制到一个新的文件夹里面,并未去掉原文件夹里面的子文件夹,一步到位提取所有文件。
'''作用将一个文件夹里的所有文件(不限层级)立面的所有文件。全部复制到一个新的文件夹里面,并未去掉原文件夹里面的子文件夹,一步到位提取所有文件。'''import osfrom shutil import copyfilefind_fil=[]path='C:\\Users\\yyy\\Desktop\\11'tar='C:\\Users\\yyy\\Desktop\\55'...
2018-09-01 16:48:04 312
原创 Series 假如有两个索引都是a 那么求平均数
#Series 假如有两个索引都是a 那么求平均数a=pd.Series([1,2,3,4,6,7],index=['a','a','b','b','c','d'])ind=list(a.index)ind_dict={} #判断哪些是重复的索引for i in ind: if i in ind_dict.keys(): ind_dict[i]+=1 e...
2018-08-22 00:09:08 905
原创 Series 假如有两个索引都是a 那么求平均数
#Series 假如有两个索引都是a 那么求平均数a=pd.Series([1,2,3,4,6,7],index=['a','a','b','b','c','d'])ind=list(a.index)ind_dict={} #判断哪些是重复的索引for i in ind: if i in ind_dict.keys(): ind_dict[i]+=1 e...
2018-08-21 23:32:56 992
原创 列表在用for 循环删除一些元素的时候记得用 for i in list.copy()
for i in data.copy(): if not diag(i): data.remove(i)#这是因为没删除一次data本身就变了 所以再次循环的时候就不是之前的了 所以要用·copy
2018-08-19 17:07:47 554
原创 python的文件处理
python 读写、创建 文件python中对文件、文件夹(文件操作函数)的操作需要涉及到os模块和shutil模块。得到当前工作目录,即当前Python脚本工作的目录路径: os.getcwd()返回指定目录下的所有文件和目录名:os.listdir()函数用来删除一个文件:os.remove()删除多个目录:os.removedirs(r“c:\python”)检验给出...
2018-08-16 14:44:35 113
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人