自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 问答 (1)
  • 收藏
  • 关注

原创 机器学习数据分析——数据特征选定

数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。因此,特征过程的本质就是一项工程活动,目的是最大限度地从原始数据中提取合适的特征,以供算法和模型使用。特征处理是特征工程的核心部分,scikit-leam提供了较为完整的特征处理方法,包括数据预处理、特征选择、降维等。以下介绍四个数据特征选择的方法:单变量特征选定、递归特征消除、主要成分分析、特征的重要性。特征选定特征选定是一个流程,能够选择有助于提高预测结果准确度的特征数据,或者有助于发现我们感兴趣的输出结果的特征数据。如果数据中包含无

2021-05-13 16:51:08 1047

原创 机器学习——数据预处理

数据预处理需要根据数据本身的特性进行,有不同的格式和不同的要求,有缺失值的要填,有无效数据的要剔,有冗余维的要选,这些步骤都和数据本身的特性紧密相关。数据预处理大致分为三个步骤:数据的准备、数据的转换、数据的输出。数据处理是系统工程的基本环节,也是提高算法准确度的有效手段。因此,为了提高算法模型的准确度,在机器学习中也要根据算法的特征和数据的特征对数据进行转换。这里将利用scikit-learn来转换数据,以便我们将处理后的数据应用到算法中,这样也可以提高算法模型的准确度。主要介绍以下几种数据转换方法:调

2021-05-13 10:53:28 1069

原创 机器学习——数据可视化Matplotlib

单一图表直方图直方图(Histogram)又称质量分布图,是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据的分布情况。一般用横轴表示数据类型,纵轴表示分布情况。直方图可以非常直观地展示每个属性的分布状况。通过图表可以很直观地看到数据是高斯分布、指数分布还是偏态分布。from pandas import read_csv import matplotlib.pyplot as plt filename = 'pima data.csv' names = ['preg', 'plas','

2021-05-12 17:40:33 515

原创 机器学习——数据理解

为了得到更准确的结果,必须理解数据的特征、分布情况,以及需要解决的问题,以便建立和优化算法模型。以下介绍七种方法来理解数据:1.简单地查看数据。2.审查数据的维度。3.审查数据的类型和属性。4.总结查看数据分类的分布情况。5.通过描述性统计分析数据。6.理解数据属性的相关性。7.审查数据的分布状况。1.简单地查看数据对数据的简单审视,是加强对数据理解最有效的方法之一。通过对数据的观察,可以发现数据的内在关系。这些发现有助于对数据进行整理。from pandas import read c

2021-05-12 17:18:13 1004

原创 机器学习——数据导入/CSV文件导入

在训练机器学习的模型时,数据通常会以csv的格式来存储,将csv数据导入到Python中的方法大概有三种:1.通过标准的Python库导入csv文件。2.通过NumPy导入csv文件。3.通过Pandas导入csv文件。CSV文件csv文件是用逗号(,)分隔的文本文件1.文件头如果csv的文件里包括文件头的信息,可以很方便地使用文件头信息来设置读入数据字段的属性名称。如果文件里不含有文件头信息,需要自己手动设定读入文件的字段属性名称。数据导入时,设置字段属性名称,有助于提高数据处理程序的可读性

2021-05-12 15:06:59 4104 1

原创 机器学习基础Numpy | Matplotlib | Pandas

Numpy1.创建数组通过给array函数传递Python的序列对象创建数组,如果传递的是多层嵌套的序列,将创建多维数组。import numpy as np #创建数组myarray = np.array([1, 2, 3]) print(myarray) print(myarray.shape) #创建多维数组myarray = np.array([[1, 2, 3], [2, 3, 4], [3, 4, 5]]) print(myarray) print(myarray.shape

2021-05-12 12:31:05 207

原创 机器学习入门/最简单的机器学习项目——茸尾花(Iris Flower )分类

机器学习机器学习项目步骤( 1 )导入数据。( 2)概述数据。( 3)数据可视化。( 4)评估算法。( 5)实施预测。导入数据#导入类库from pandas import read_csv from pandas.plotting import scatter_matrix from matplotlib import pyplot from sklearn.model_selection import train_test_splatfrom sklearn.model_select

2021-05-12 11:23:58 421

原创 Python网络爬虫学习笔记(四)解析库的使用

解析库的使用使用正则表达式,比较烦琐,而且万一有地方写错了,可能导致匹配失败。对于网页的节点来说,有 id 、 class 或其他属性。 而且节点之间还有层次关系,在网页中可以通过 XPath 或 css 选择器来定位一个或多个节点 。 利用 XPath 或 css选择器来提取某个节点,然后再调用相应方法获取它的正文内容或者属性。在 Python 中,有 lxml 、Beautiful Soup 、 pyquery 等解析库实现这个操作。使用 XPathXPath , 全称 XML Path La

2020-12-19 16:52:32 1001 2

原创 Python网络爬虫实例——正则表达式爬取B站排行榜

1.爬取分析需要抓取的目标站点为:https://www.bilibili.com/v/popular/rank/all页面中显示的有效信息有视频名称、播放量、分享数、up主名、综合得分、封面图片等信息。根据视频分类,观察页面的URL变化https://www.bilibili.com/v/popular/rank/bangumi发现URL路径发生变化,all变成了bangumi初步判断不同分类视频放在不同的路径下可以把路径存放在元组中,循化爬取2.抓取全站榜单首先先试着抓取全站的榜单

2020-12-13 20:59:46 1710 3

原创 Python网络爬虫学习笔记(三)正则表达式

正则表达式正则表达式是处理字符串的强大工具,它有自己特定的语法结构,有了它,实现字符串的检索、替换、匹配验证。1 实例引入正则表达式匹配 ,也就是用一定的规则将特定的文本提取出来 。开源中国提供了正则表达式测试工具:https://tool.oschina.net/regex/例子:Hello, my phone number is 010-86432100 and email is cqc@cuiqingcai.com, and my website is https://cuiqingca

2020-12-13 18:03:28 233 1

原创 Python网络爬虫学习笔记(二)基本库的使用

基本库的使用最基础的 HTTP 库有 urllib 、 httplib2 、 requests 、 treq 等 。使用urliburlib 包含四个模块口 request : 它是最基本的 HTTP 请求模块,可以用来模拟发送请求 。 就像在浏览器里输入网址,然后回车一样,只需要给库方法传入 URL 以及额外的参数,就可以模拟实现这个过程了 。口 error : 异常处理模块,如果出现请求错误 , 我们可以捕获这些异常,然后进行重试或其他操作以保证程序不会意外终止 。口 parse : 一个工

2020-12-13 08:47:46 834

原创 Python 网络爬虫学习笔记(一)HTTP基本原理

Python 网络爬虫学习笔记(一)HTTP基本原理URI和URLURI:统一资源标识符(Uniform Resource Identifier)URL:统一资源定位符(Uniform Resource Locator)URL是URI的子集例:https://github.com/favicon.ico 是GitHub的网站图标链接,它是一个URL,也是一个URI。(访问协议:https、访问路径(/即根目录)和资源名称favicon.ico)URN:统一资源名称(Uniform Resou

2020-12-08 12:55:59 604

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除