worden丶-CSDN博客

原创 python自学笔记之可视化神器pyecharts（三）

from pyecharts.charts import Map, Geofrom pyecharts import options as optsfrom pyecharts.globals import ChartType,SymbolType, GeoTypeimport pandas as pddata = pd.read_csv("TitaniclocA.csv")home = list(data["home"])longitude_h = list(data["longitude_h

2021-06-04 19:36:33 323

原创 TensorFlow2.0学习笔记之一些高阶API

一、tf.keras高阶API概览高阶API代码实现activationstf.keras.actibations包含了当前主流的激活函数，可以直接通过该API进行激活函数的调用。applicationstf.keras.applications包含的是已经进行预训练的神经网络模型，可以直接进行预测或者迁移学习。目前该模块中包含了主流的神经网络结构。backendtf.keras.backend包含了Keras后台的一些基础API接口，用于实现高阶API或者自

2021-01-23 15:41:24 271

原创 TensorFlow学习笔记之一些低阶API

import tensorflow as tf# 查看tensorflow的版本print("TensorFlow Version:{}".format(tf.__version__))输出结果：TensorFlow Version:2.3.0# TensorFlow2.0 低阶API基础编程# tf.constant提供了常量的声明功能，示例代码如下a = tf.constant(9)print(a,a.numpy())输出结果：tf.Tensor(9, shape=(), dtyp

2021-01-21 17:11:50 234

原创 Python数据挖掘（二）之Pandas高级处理

一、缺失值处理1、缺失值处理思路删除含有缺失值的样本替换/插补(计算平均值、中位数填入)2、如何处理NaN判断数据是否为NaN：pd.isnull(df)，pd.notnull(df)存在缺失值NaN，并且是np.nan：1、删除存在缺失值的：df.dropna(axis=‘rows’,inpalce=True)2、替换缺失值：df.fillna(value,inplace=True)value：替换成的值inplace：True会修改原数据/False不替换修改原数据

2020-09-19 20:47:13 690

原创 Python数据挖掘（二）之Pandas

一、pandas介绍panel+data+analysis二、DataFrame1、结构：既有行索引，又有列索引的二维数组import numpy as npimport pandas as pd# 创建一个符合正态分布的10个股票5天的涨幅数据stock_change = np.random.normal(0,1,(10,5))# 添加行索引indexstock = ['股票{}'.format(i) for i in range(10)]# 添加列索引columnsdate

2020-09-16 22:28:40 624

原创 Python数据挖掘（一）之Numpy

一、基本操作ndarry.方法（）numpy.函数名（）二、ndarray与Python原生list运算效率对比import numpy as npimport randomimport time# 生成一个大数组python_list = []for i in range(10000000): python_list.append(random.random())ndarray_list = np.array(python_list)# 原生pythonlist求和

2020-09-15 20:27:29 485

原创 python学习笔记之Matplotlib

一、Matplotlib三层结构容器层画板层(Canvas)画布层(Figure)：plt.figure()绘图区/坐标系(Axes)：plt.subplots()辅助显示层坐标(axis)、图例(legend)等图像层二、常见图表折线图 plot散点图 scatter柱状图 bar直方图 histogram饼状图 pie三、折线图(plot)与基础绘制功能单个绘图区画两条折线import matplotlib.pyplot as pltimpor

2020-09-14 11:23:18 215

原创机器学习学习笔记（十二）之K-means算法

一、无监督学习包含算法eans聚类——K-means降维——PCA二、K-means算法原理随机设置K个特征空间内的点作为初始的聚类中心对于其他每个点计算到K个中心的距离，未知的点选择最近的一个聚类中心点作为标记类别接着对着标记的聚类中心之后，重新计算出每个聚类的新中心点（平均值）如果计算得出的新中心点与原中心点一样（质心不再移动），那么结束，否则重新进行第二步过程三、APIsklearn.cluster.KMeans(n_clusters=8,init = ‘k-means

2020-09-08 16:29:36 255

原创机器学习学习笔记（十一）之sklearn模型保存与加载

一、APIfrom sklearn.externals import joblib保存：joblib.dump(rf,‘test.pkl’)加载：estimator = joblib.load(‘test.pkl’)二、案例from sklearn.datasets import load_bostonfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import Standa

2020-09-08 15:53:24 328

原创机器学习学习笔记（十）之逻辑回归与二分类

一、逻辑回归是一个分类算法逻辑回归的输入及时一个线性回归的结果1、sigmoid函数（h(w)线性回归）：判断标准回归的结果输入到sigmoid函数当中输出结果：[0,1]区间的一个概率值，默认为0.5位阈值2、损失及优化损失：逻辑回归的损失，称之为对数似然损失当真实值y=1时，我们希望预测值h(x)越大越好当真实值y=0时，我们希望预测值h(x)越小越好综合完整损失函数：下表的阈值定为0.6优化：同样使用梯度下降优化算法，去减少损失函数的值。

2020-09-08 15:44:13 678

原创机器学习学习笔记（九）之岭回归

一、欠拟合与过拟合1、定义过拟合：一个假设在训练数据上能够获得比其他假设更好的拟合，但是在测试数据集上却不能很好地拟合数据，此时认为这个假设出现了过拟合的现象。(模型过于复杂)欠拟合：一个假设在训练数据上不能获得更好的拟合，并且在测试数据集上也不能很好地拟合数据，此时认为这个假设出现了欠拟合的现象。(模型过于简单)2、原因及解决办法欠拟合原因以及解决办法原因：学习到数据的特征过少解决办法：1）添加其他特征项，有时候我们模型出现欠拟合的时候是因为特征项不够导致的，可以添加其他特征

2020-09-08 13:29:09 850

原创机器学习学习笔记（八）之线性回归

一、什么是线性回归？定义：是利用回归方程（函数）对一个或多个自变量（特征值）与因变量（目标值）之间关系进行建模的一种分析方式。二、线性回归的损失函数和优化原理损失函数——最小二乘法优化算法正规方程梯度下降（Gradient Descent）梯度下降与正规方程的对比梯度下降正规方程需要选择学习率不需要需要迭代求解一次运算得出特征数量较大可以使用需要计算方程，时间复杂度高O(n3)选择小规模数据：LinearRegre

2020-09-07 22:36:20 304

原创机器学习学习笔记（七）之决策树

一、决策树如何高效的进行决策？特征的先后顺序二、信息熵香农：信息是消除随机不定性的东西定义：H的专业术语称之为信息熵，单位为比特三、决策树的划分依据之一 ——信息增益定义与公式：特征A对训练数据集D的信息增益g(D,A)定义为集合D的信息熵H(D)与特征A给定条件下D的信息条件熵H(D|A)之差，即公式为当然决策树的原理不止信息增益这一种，还有其他方法，但是原理都类似ID3：信息增益最大的准则C4.5：信息增益比最大的准则CART：分类树：基尼系数最小

2020-09-07 16:40:04 645

原创机器学习学习笔记（六）之朴素贝叶斯算法

一、贝叶斯公式（不赘述）二、何为朴素？假设：特征与特征之间相互独立三、应用场景文本分类，单词作为特征四、拉普拉斯平滑系数五、APIsklearn.naive_bayes.MultinomialNB(alpha = 1.0)朴素贝叶斯分类alpha：拉普拉斯平滑系数六、案例获取数据划分数据集特征工程—文本特征抽取朴素贝叶斯预估器流程模型评估from sklearn.datasets import fetch_20newsgroupsfrom s

2020-09-07 15:36:25 244

原创机器学习学习笔记（五）之K-近邻算法（KNN）

一、K-近邻算法（KNN）原理定义：如果一个样本在特征空间中的k个最相似（即特征空间中最邻近）的样本中的大多数属于某一类别，则该样本也属于这个类别距离公式：两个样本的距离可以通过欧式距离计算二、K-近邻算法APIsklearn.neighbors.KNeighorsClassifier(n_neighbors=5,algorithm=‘auto’)n_neighbors：int，可选，默认为5，k_neighbors查询默认使用的邻居数。algorithm：{‘auto’,‘ball_t

2020-09-07 12:21:55 412

原创机器学习学习笔记（四）之特征降维

特征降维降维是指在某些限定的条件下，降低随机变量（特征）的个数，得到一组‘不相关’的主变量的过程效果：特征与特征之间不相关1、降维的两种方式特征选择主成分分析2、什么是特征选择？定义：数据中包含冗余或相关变量（或称特征、属性、指标等），旨在从原有特征中找出主要特征。方法：Filter（过滤式）：主要探究特征本身特点、特征与特征和目标值之间关联方差选择法：低方差特征过滤相关系数Embedded（嵌入式）：算法自动选择特征（特征与目标值之间的关联）决策树：信息熵、信息增熵

2020-09-07 11:22:11 644 1

原创机器学习学习笔记（三）之特征预处理

特征预处理什么是特征预处理：通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程1、包含内容数值型数据的无量纲化(使不同规格的数据转为同一规格)：归一化和标准化2、特征预处理APIsklearn.preprocessing3、归一化[Min,Max]到[0,1]的线性映射sklearn.preprocessing.MinMaxScaler(feature_range=(0,1)…)–MinMaxScalar.fit_transform(X) X：numpy array

2020-09-07 11:21:33 197

原创机器学习学习笔记（二）之特征提取

一、什么是特征工程特征工程是使用专业背景知识和技巧处理数据，使得特征能在机器学习算法上发挥更好的作用的过程意义：会直接影响机器学习的效果二、特征工程的位置与数据处理的比较pandas：数据清洗、数据处理sklearn：对于特征的处理提供了强大的接口三、特征抽取/特征提取1、将任意数据（如文本或图像）转换为可用于机器学习的数字特征字典特征提取（特征离散化）文本特征提取图像特征提取（深度学习将介绍）2、特征提取APIsklearn.feture_extraction3、

2020-09-07 00:37:50 1216

原创机器学习学习笔记（一）之数据集

一、学习阶段可用的数据集：1、Kaggle网址：https://www.kaggle.com/datasets特点：大数据竞赛平台/真实数据/数据量巨大2、UCI数据集网址：http://archive.ics.uci.edu/ml/index.php特点：收录了500余个数据集/覆盖科学、生活、竞技领域/数据量几十万3、scikit-learn网址：https://scikit-learn.org/stable/datasets/index.html#datasets特点：数据量较小/方便学习

2020-09-06 18:00:41 567

原创 python学习笔记之一些测试代码（四）

# 测试代码1--json库的使用# 新建一个字典dic_v1 = {"confirm":500,"heal":480} #创建字典print(dic_v1)print(type(dic_v1))# 将字典dic_v1转换为字符串print("将字典dic_v1转换为字符串".center(30,'='))import jsonstr_v1 = json.dumps(dic_v1) #将字典转换为字符串print("字典转换为字符串后的值:",str_v1)print("使

2020-09-03 21:54:25 185

原创 python学习笔记之数据的可视化（三）

疫情数据的可视化1> matplotlib 导库命令：import matplot.pyplot as plt2> 可视化流程1.绘制画布及绘制图形 plt.figure(figsize=(8,6),dpi =80) plt.plot(x,y,color,linestyle) 参数含义:color表示颜色，颜色的单词 linestyle表示线型，- -- : -. plt.scatter(x,y,color,marker,s)

2020-09-03 21:48:28 540

原创 python学习笔记之数据的分析（二）

疫情数据的分析1.导入外部数据pd.read_csv('文件名') 查看数据属性：columns 列名index 行索引shape m行n列dtyps 各列的类型2.查找数据方法1：用列名直接查找df[[列名列表]]方法2：用loc查找df.loc[行取值，列取值]注意：行取值可以用逻辑值来进行映射，逻辑真（True）会返回，逻辑假（False）会去掉df.head(n) #返回前n行，默认为5行df.tail(n)

2020-09-03 21:40:51 174

原创 python学习笔记之数据的获取（一）

疫情数据获取 – 爬虫（requests，pandas，json) 1) 网站链接： https://wp.m.163.com/163/page/news/virus_report/index.html?_nw_=1&_anw_=1 2) 操作步骤： 1.打开开发者工具（在网页浏览器中打开网址，按f12即可） 2.选择‘network’面板，设置类型为‘xhr’类型，刷新页面 3.点击以‘list-total’开头的链接，查看headers和preview面板 hea

2020-09-03 21:15:54 2743

原创 python自学笔记之可视化神器pyecharts（二）

from pyecharts.charts import Barfrom pyecharts import options as optsfrom pyecharts.globals import ThemeTypefrom snapshot_selenium import snapshotfrom pyecharts.render import make_snapshotcolumns = ["Jan", "Feb", "Mar", "Apr", "May", "Jun", "Jul", "A

2020-09-02 22:39:29 828

原创 python自学笔记之可视化神器pyecharts（一）

pyecharts是一款将python与echarts结合的强大的数据可视化工具一、pyecharts包含的图表：函数名图表类型Bar柱状图/条形图Bar3D3D柱状图Scatter散点图Scatter3D3D 散点图KlineK线图Line折线/面积图Pie饼图Boxplot箱形图EffectScatter带有涟漪特效动画的散点图Funnel漏斗图Gauge仪表盘Geo地理坐标系Grap

2020-09-02 19:14:20 578

qq_42769184的博客