Python
哥伦布112
Apache IoTDB contributor
https://github.com/WilliamSong11/iotdb
展开
-
python notebook 在加载ipynb文件 报错NotJSONError(‘Notebook does not appear to be JSON: \‘\\ufeff{“nbformat“
使用json格式化工具格式化,将特殊 空格 换行 符号替换。sublime打开ipynb,将文件改为 utf8格式。原创 2020-07-04 00:38:56 · 9293 阅读 · 0 评论 -
分类和聚类的区别
前言机器学习中有两类的大问题,一个是分类,一个是聚类。在我们的生活中,我们常常没有过多的去区分这两个概念,觉得聚类就是分类,分类也差不多就是聚类,下面,我们就具体来研究下分类与聚类之间在数据挖掘中本质的区别。一、分类分类有如下几种说法,但表达的意思是相同的。分类(classification):分类任务就是通过学习得到一个目标函数f,把每个属性集x映射到一个预先定义的类标号y中。分类是根据一些给定的已知类别标号的样本,训练某种学习机器(即得到某种目标函数),使它能够对未知类别的...原创 2020-07-02 01:03:12 · 7234 阅读 · 0 评论 -
K-means优化
大家接触的第一个聚类方法,十有八九都是K-means聚类啦。该算法十分容易理解,也很容易实现。其实几乎所有的机器学习和数据挖掘算法都有其优点和缺点。那么K-means的缺点是什么呢? 总结为下: (1)对于离群点和孤立点敏感; (2)k值选择; (3)初始聚类中心的选择; (4)只能发现球状簇。 对于这4点呢的原因,读者可以自行思考下,不难理解。针对上述四个缺点,依次介转载 2017-08-09 13:40:22 · 590 阅读 · 0 评论 -
机器学习 监督学习和无监督学习
标签:前话:最近一直想学机器学习的东西,无奈自己的书太多但无法专心看一本,纯理论的东西看了感觉不记下来就忘记类,所以我想理论学习和实践一起.所以最近想把机器学习实战这本书看完,并做好记录.加油.!~ 一:什么是监督学习?监督学习(supervised learning):通过已有的训练样本(即已知数据以及其对应的输出)来训练,从而得到一个最优模型转载 2017-04-26 23:07:55 · 528 阅读 · 0 评论 -
机器学习——几种分类算法的汇总
参考博客:http://www.apachecn.org/map/179.html参考博客写的很全面,也有例子,我这算是转载缩减记录方便自己记忆,有想参考的朋友可以参照原博客学习。分类算法分类:将实例数据划到合适的类别中。标称型:标称型目标变量的结果只在有限目标集中取值,如真与假(标称型目标变量主要用于分类)数值型:数值型目标变量则可以从无限的数值集合中取值,如0.100,42.001等 (数值型目标变量主要用于回归分析)整个开发流程:收集数据——准备数据——分析数据——训练算法——原创 2020-06-22 09:18:02 · 2151 阅读 · 0 评论 -
朴素贝叶斯 中文垃圾邮件分类
%pylab inlineimport matplotlib.pyplot as pltimport pandas as pdimport stringimport codecsimport osimport jiebafrom sklearn.feature_extraction.text import CountVectorizerfrom wordcloud import WordCloudfrom sklearn import naive_bayes as bayesfrom s原创 2020-06-25 02:42:15 · 790 阅读 · 0 评论 -
lightgbm案例
import lightgbm as lgbimport pandas as pdfrom sklearn.metrics import mean_squared_errorfrom sklearn.model_selection import GridSearchCVfrom sklearn.datasets import load_irisfrom sklearn.model_selection import train_test_splitfrom sklearn.datasets imp原创 2020-06-25 02:37:47 · 458 阅读 · 0 评论 -
catboost案例
from catboost import CatBoostClassifier# 数据集cat_features = [0, 1] # 类别特征下标train_data = [["a", "b", 1, 4, 5, 6], ["a", "b", 4, 5, 6, 7], ["c", "d", 30, 40, 50, 60]]train_labels = [1, 1, -1]eval_data = [["a", "b", 2, 4, 6,...原创 2020-06-25 02:35:45 · 1097 阅读 · 0 评论 -
xgboost案例
from __future__ import divisionimport numpy as npimport xgboost as xgb# label need to be 0 to num_class -1data = np.loadtxt('/Users/songyx/Desktop/xgb/dermatology.data', delimiter=',', converters={33: lambda x:int(x == '?'), 34: lambda x:int(...原创 2020-06-25 02:33:38 · 358 阅读 · 0 评论 -
spark程序报错 unicode object has no attitube tzinfo
spark 程序运行 报错 unicode object has no attitube tzinfo错误发生的背景是这样的,构建parquet格式的测试用例,请求时间用的用的 StringType. 处理过后 以parquet写HDFS的话 是TimestampType格式 所以会报这样的错解决:req_time = datetime.datetime.st原创 2017-11-14 19:51:09 · 1038 阅读 · 0 评论 -
python浅复制与深复制
浅复制 只会复制 对象本身深复制。会复制对象所引用的对象原创 2017-10-11 11:57:00 · 311 阅读 · 0 评论 -
python的ID方法
In [16]: id(list)Out[16]: 4357481608In [17]: listOut[17]: [1, 2, 3, 4, 5, 6]id方法返回的是对象的内存地址原创 2017-10-11 11:04:50 · 456 阅读 · 0 评论 -
Python报错 python unhashable type
Python中的key 不可以是 list类型 因为 list是可变的 不能被hash原创 2017-09-19 17:00:38 · 10374 阅读 · 1 评论