python机器学习
文章平均质量分 59
书名就是专栏名,书上的代码复现学习
海绵波波107
定量遥感研二在读
展开
-
循环神经网络时间序列预测
循环神经网络用于时间序列预测比较好,先使用股票价格数据集来理解和掌握该算法。原创 2023-10-11 11:05:59 · 209 阅读 · 0 评论 -
深度森林(deep-forest)安装
而我的py3.11只支持以下后缀的wheel文件,不支持cp39-cp39-win_amd64。输入pip install deep之后可以。在下载好之后,打开文件下载的位置。,搜索deep-forest,,然后在上方输入cmd,原创 2023-10-09 15:28:24 · 736 阅读 · 0 评论 -
Python计算巴氏距离
在统计中,巴氏距离(Bhattacharyya Distance)测量两个离散或连续概率分布的相似性。它与衡量两个统计样品或种群之间的重叠量的巴氏系数密切相关。巴氏距离和巴氏系数以20世纪30年代曾在印度统计研究所工作的一个统计学家A. Bhattacharya命名。同时,巴氏系数可以被用来确定两个样本被认为相对接近的,它是。总而言之,巴氏距离在遥感机器学习分类上的作用就是,,以便下一步计算。原创 2023-09-30 12:27:58 · 322 阅读 · 1 评论 -
python大规模机器学习day3-使用数据库包sqlite3
使用数据库包sqlite3实验要求:1.学会使用SQLite3数据库2.使用简单查询得到数据流3.数据上传到数据库4.流处理实验内容:1.流处理方式自动创建数据库代码注释:import os ,sys #os库用来处理路径信息,sys库用于帮助进行数据库的操作import sqlite3, csv,glob #sqlite3用于数据库的操作,csv用于读写csv文件,glob用于模式匹配SEP=’,’def define_field(s):try:int(s)return ‘原创 2020-07-11 22:51:02 · 182 阅读 · 0 评论 -
python大规模机器学习day6-描述目标
描述目标实验要求:1.学习分类计数及其频率值计算实验内容:1.研究森林覆盖值,用分类的思想处理它代码注释:import os,csvlocal_path=os.getcwd()source=‘covtype.data’SEP=’,’forest_type={1:“Spruce/Fir”, 2:“Lodgepole Pine”, 3:“Ponderosa Pine”, 4:“Cottonwood/Willow”, 5:“Aspen”, 6:“Douglas-fir”, 7:“Krummho原创 2020-08-11 23:53:04 · 187 阅读 · 0 评论 -
python大规模机器学习day10-Scikit-learn的SVM实现
Scikit-learn的SVM实现实验要求:1.分类实验内容代码注释:代码1:import osprint (“Current directory is: “%s”” % (os.getcwd())) //directory是目录的意思,当前目录用os.getcwd()来提取代码2:from sklearn import datasets //datasets 这个项目收集了大量的数据集,旨在将它们组织成一个通用的、pip可安装的体系结构。iris = datasets.loa原创 2020-09-01 23:18:13 · 321 阅读 · 0 评论 -
python大规模机器学习day5-数据流的特征管理
数据流的特征管理实验要求:1.掌握缩放策略2.得到训练集上的四个特征量:平均值,最大值,最小值,标准偏差实验内容:1.通过绘制值后,检查估算值相对于最终结果的波动程度2.通过与打乱版本的shuffled_har.csv文件的图表对比,了解随机化观测顺序的重要性代码注释:import os, csv //csv库用于读取和写入表格数据local_path = os.getcwd() //用getcwd来获取当前的保存路径source = ‘bikesharing\hour原创 2020-08-08 21:32:32 · 186 阅读 · 0 评论 -
python大规模机器学习day1-流化共享单车数据集
流化共享单车数据集实验要求:1.处理存储在存储库或文件中的静态记录。实验内容:1.使用前面定义的打包器函数将数据集保存到本地硬盘。2.将数据恢复为列表或Python字典。源代码:import urllib.request as urllib2 #urllib包提供了一个高级接口,用于编写需要与HTTP服务器、FTP服务器和本地文件交互的客户端。典型的应用程序包括从网页抓取数据、自动化、代理、Web爬虫等。urllib.request用途是为了从Web服务器中获取数据。import reque原创 2020-07-07 14:32:07 · 457 阅读 · 0 评论 -
python大规模机器学习day9-使用SGD
使用SGD实验要求:1.重新排列数据2.训练SGDClassifier实验内容:1.重新排列数据和SGD的训练器预测准确度代码注释:代码1:import zlib //zlib用于数据压缩from random import shuffledef ram_shuffle(filename_in,filename_out,header=True):with open(filename_in,‘rb’) as f:zlines = [zlib.compress(line,9) for原创 2020-08-18 22:48:33 · 829 阅读 · 0 评论 -
python大规模机器学习day2-使用pandas I/O工具
使用pandas I/O工具实验要求:1.使用pandas的read_csv函数来建立流数据2.对数据分块实验内容:1.使用read_csv函数来读取数据2.使用.iloc函数来数据切割源代码:import pandas as pdCHUNK_SIZE = 1000 #组块大小with open(local_path+’\’+source, ‘rt’) as R: #R为一个对象,对象中有文件路径和读写方法iterator = pd.read_csv(R,chunks原创 2020-07-11 14:09:54 · 135 阅读 · 0 评论 -
python大规模机器学习day7-哈希技巧
哈希技巧实验要求:1.在无法事先分类的情况下用哈希技巧来存取特征值,尤其是文本处理,涉及千万不同的单词。实验内容:1.利用哈希函数的核心特性——将值或字符串明确地转换为整数值。代码注释:from sklearn.feature_extraction.text import HashingVectorizer //Scikit-learn包中的两个专门函数,此处是HashingVectorizer,是一个利用哈希函数,对象为文本的转换器。h=HashingVectorizer(n_feature原创 2020-08-13 23:21:47 · 236 阅读 · 0 评论 -
python大规模机器学习day4-关注实例顺序
关注实例顺序实验要求:1.使用shuffle获得更适合在线随机学习的最优随机顺序实验内容:1.使用shuffle函数2.使用zlib包读和存压缩数据代码注释:import zlib #zlib包提供数据压缩from random import shuffle #random包可以产生随机数,shuffle的作用类似于洗牌def ram_shuffle(filename_in,filename_out,header=True): #定义了3个参数,作用分别是读文件,写文件,布尔值参数。w原创 2020-07-12 18:10:10 · 125 阅读 · 0 评论 -
python大规模机器学习day8-其他基本变换
通过嵌套迭代创建二次特征。为什么二次特征在对目标响应建模中很重要?比如在研究两种药物对病人的影响一例中。每种药物都可能对所治疗的疾病有所作用,而两种药物如果一起使用,可能药效又会不同。在这种意义上,通过嵌套迭代来创建二次特征,可能会以意想不到的方式影响目标变量中的响应。因此关键的不是已经了解特征,而是特征嵌套来找出更重要的特征。...原创 2020-08-14 11:36:16 · 82 阅读 · 0 评论