- 博客(25)
- 收藏
- 关注
转载 大数据仓库集锦
大数据目前的主要趋势(自己理解)文件系统、部署、各种流和开源工具-------ETL开发(BI项目)----数据统计分析------数据挖掘、机器学习 ...
2018-10-17 18:08:00 156
转载 python 不细心导致的error
一、列表问题>>> l = [1,2,3,4]>>> l = l.append(6)#or insert>>> print lNone>>> 该方法无返回值,但是会修改原来的列表。二、函数传参 要明白哪些是可变类型:list(可变) #coding=utf-8...
2018-08-04 10:21:00 144
转载 Hadoop 浅谈
一、什么是hadoop hadoop是一个开源的分布式计算和存储的框架。二、什么是mapreduce? 从总体上来讲,MapReduce主要包括三个阶段,map阶段, shuffle阶段, reduce阶段,如果大家对我前面讲的HDFS还有印象,应该能知道split这个过程,其实是HDFS帮我们做了,下面我从map的输入开始,剖析一下整个MapRedu...
2018-07-08 16:51:00 218
转载 机器学习上的一些容易混淆的概念
监督学习中,如果预测的变量是离散的,我们称其为分类(如决策树,支持向量机等),如果预测的变量是连续的,我们称其为回归。分类和回归的区别在于输出变量的类型。定量输出称为回归,或者说是连续变量预测;定性输出称为分类,或者说是离散变量预测。举个例子:预测明天的气温是多少度,这是一个回归任务;预测明天是阴、晴还是雨,就是一个分类任务。回...
2018-01-31 19:08:00 202
转载 pipeline结合GridSearchCV的一点小介绍
1 clf = tree.DecisionTreeClassifier() 2 3 ''' 4 5 GridSearchCV search the best params 6 ''' 7 pipeline = Pipeline([('tree', clf),("svm",svm)]) 8 9 ...
2018-01-15 09:41:00 279
转载 scipy.optimize.minimize 解决实际问题
接上博客问题http://www.cnblogs.com/shizhenqiang/p/8274806.html# coding=utf-8from scipy import optimizeimport numpy as npdef get(): ar = [160, 130, 220, 170, 140, 130, 190, 15...
2018-01-12 15:27:00 1023
转载 python 之pulp 线性规划介绍及举例
pulphttp://pythonhosted.org/PuLP/main/basic_python_coding.html供水问题1问题供水公司有三个水库分别为A,B,C向四个小区甲乙丙丁供水,A和B向所有小区供水,C仅向甲乙丙供水,水库最大供水量(千吨)水库ABC最大供水量(千吨)...
2018-01-12 11:17:00 905
转载 详细介绍关联规则Apriori算法及实现
看了很多博客,关于关联规则的介绍想做一个详细的汇总:一、概念 表1 某超市的交易数据库交易号TID顾客购买的商品交易号TID顾客购买的商品...
2018-01-09 14:16:00 263
转载 两层嵌套list,选取list中最长的list的长度
1 # coding=utf-8 2 3 4 import pandas as pd 5 6 file_path = "test_aa.xlsx" 7 dt = pd.read_excel(file_path) 8 data = dt['con'] 9 locdata = []10 for i in data:11 locdat...
2018-01-08 16:32:00 1507
转载 iris数据集 决策树实现分类并画出决策树
1 # coding=utf-8 2 3 import pandas as pd 4 from sklearn.model_selection import train_test_split 5 from sklearn import tree 6 from sklearn.metrics import precision_recall_curve #准确率...
2018-01-05 15:47:00 2027
转载 np.array转换为list,嵌套的python list转成一个一维的python list
np.array转换为list 1 meitan = shuju.iloc[start:end, 1:2] 2 3 zhengqi = shuju.iloc[start:end,2:3] 4 print(type(list(l))) 5 newmeitan = np.array(meitan) #[[][][]] 6 newzhengqi = np.arra...
2018-01-04 13:58:00 705
转载 pandas读取excel中指定数据的行数
1 shuju = pd.read_excel(filename)2 loandata = pd.DataFrame(shuju)3 ncol = (len(loandata.keys()))4 5 data = loandata[loandata['时间'].isin(['2016/8/28 8:00'])].index #“时间”...
2018-01-03 16:44:00 5347
转载 简单的线性规划-scipy
根据描述,我们用线性规划带约束来求解问题# coding=utf-8from scipy.optimize import linprogimport numpy as npdef maxGain(args): xg,yg,naifenx,naifeny,kaofeix,kaofeiy,sukx,suky,naifenmax,ka...
2018-01-03 16:36:00 206
转载 共轭梯度算法求最小值-scipy
1 # coding=utf-8 2 3 #共轭梯度算法求最小值 4 import numpy as np 5 6 from scipy import optimize 7 8 9 10 11 def f(x, *args):12 u, v = x13 a, b, c, d, e, f,g,h = args...
2018-01-03 16:30:00 1146
转载 非线性规划带约束-scipy.optimize.minimize
1 # coding=utf-8 2 3 from scipy import optimize 4 import numpy as np 5 15 def get(args):16 a, b, c, d, e, f, g, h = args17 fun = lambda x:a*x[0]**g+b*x[0]*x[1]+c*x[1]**h...
2018-01-03 16:28:00 1398
转载 Java 调用python说明文档
Java调用python说明文档通过java调用python脚本主要如下三种方式:1、直接执行python脚本;2、执行python.py文件;3、使用Runtime.getRuntime()执行脚本文件;前两种是引入Jython调用pythoninterpreter的类内嵌的编译器,但是如果调用python的某些扩展库,会出错,机器学习的库用此种方式调用,暂...
2017-12-16 09:50:00 131
转载 python3的一些改动常用到的
更多的内容会接下来说明,只举几个例子。https://docs.python.org/2/library/2to3.html1.map的输出,要在前面加list转化2.map(lambda x: x, [1,2,3])如果不在map前加上list,lambda函数根本就不会执行3.python2 lambda (l1,l2): l1 ...
2017-12-14 14:09:00 114
转载 安装python的注意事项
第一步: 下载安装文件 python-3.5.2.exe第二步: 点击安装,下一步继续第三步: 配置环境变量,记住第一次安装时的路径。第四步: 测试,打开CMD,输入python。若未找到命令,则安装失败,一般是环境变量配置错误。第五步: 安装第三方库, 将第三方库直接拷贝到C:\********AppData\Local\Programs\Python...
2017-11-17 15:51:00 209
转载 面试题目
mysqljava技术面试之面试题大全java:关于string和stringbuffer:String 长度大小不可变StringBuffer 和 StringBuilder 长度可变StringBuffer 线程安全 StringBuilder 线程不安全StringBuilder 速度快基本原则:如果要操...
2017-10-12 15:50:00 107
转载 数据挖掘中的聚类算法综述
一、引言 所谓数据挖掘,就是从大量无序的数据中发现隐含的、有效的、有价值的、可理解的模式,进而发现有用的知识,并得出时间的趋向和关联,为用户提供问题求解层次的决策支持能力。二、 DM中的现有的聚类算法 本文以聚类算法所采用的基本思想为依据将它们分为五类,即层次聚类算法、分割聚类算法、基于约束的聚类算法、机器学习中的聚类算法以及用于高维数据的聚类算法。...
2017-10-12 15:48:00 794
转载 Linux常见命令集锦
这是平常用到的命令在这里做一下总结:一、python 类1、pip(已安装)pip用来安装来自PyPI(https://www.python.org/)的python所有的依赖包,并且可以选择安装任何在PyPI上已上传的先前版本的依赖包,个人认为是python相关的包和第三方包以及各种版本2、setuptools (已安装)easy_install 综上:安装pip的方法:Ins...
2016-04-14 17:20:00 147
转载 遗传算法的理解
一、简介 1、 定义 GA:借鉴生物界的自然选择和自然遗传机制的随机化搜索算法。模拟发生(繁殖,交叉.基因突变); 属于启发式搜索算法的一种。 候选解 ---->选取较优个体 ---->遗传算子进行个体组合 ----->产生新的候选解群 重复直至收敛指标 2、组...
2016-03-12 21:16:00 105
转载 使用Grub Rescue 修复MBR
ubuntu 14.04 (本机)1、使用以下命令查看分区: grub rescure> ls (hd0,msdos7),(hd0,msdos8),(hd0,msdos9)...2、其实关键是找到grub.cfg在哪个分区里。 当然ubuntu是这个样的:(/boot 已经单独分区)ps.我的是分区9,其他参考说是减一,但是我的分区8...
2015-12-24 10:16:00 174
转载 java 虚拟机与并发处理几个问题简要(二)
六、两个重要的概念性问题: 1、同步:要保持数据的一致性,就需要一种保证并发进程正确执行顺序的机制。这种机制就是 进程同步(Process Synchronization)。 竞争资源的多个进程按着特定的顺序执行,目的是使并发执行的进程之间能有效的共享资源和相互合作,从而使程序的执行具有可再现性。(广义) ...
2015-05-28 22:43:00 98
转载 java 虚拟机与并发处理几个问题简要(一)
一、 处理任务时,应该将代码分成不同的部分,每一部分由一个线程进行,但是会因为任务负载不平衡导致有闲有忙。最好是应分成不同的部分,分配不同的线程,尽量让处理器不停的处理,不要闲下来。如何分配线程数,有一个公式: 线程数 = 处理器核数/(1-阻塞系数) 阻塞系数在0~1之间。二、 处理并发两种情况:1、...
2015-05-28 21:48:00 126
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人