自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 逻辑回归实现分类计算(二)

在上一篇逻辑回归分类计算中,模型的准确率为0.1,准确率较差且在分类1的模型预测结果显示中效果极差。在网上查找了各种逻辑回归分类的代码分析。发现错误还是在梯度下降算法计算回归系数的上,导致模型预测的精确度不高。所以本次更改梯度下降算法来进行新的预测。损失函数为:对θ求导得到梯度:更新回归系数:同时也对因变量进行修改,不再对因变量处理成[-6,6]的线性数据。将因变量...

2018-10-18 17:30:52 1022

原创 逻辑回归实现分类计算

一、算法原理:1.线性回归算法给定由n个属性(维度)描述的示例x=(x1;x2;…;xn),其中xi是x在第i个属性上的取值,线性模型试图学的一个通过属性的线性组合来进行预测的函数,即也可以写成:w为回归系数,b为常量。线性回归通常用来处理连续性变量,当因变量f(x)为离散变量,比如分类变量时,线性回归就显得不那么实用,这时候就需要采用其他方法来处理分类问题。2.逻...

2018-10-12 17:44:36 2141

原创 基于朴素贝叶斯手写数字的识别

贝叶斯分类器也广泛应用于分类的实现。特别是文本的识别。本次主要介绍用朴素贝叶斯,在独立检验的条件下实现手写数字的识别。基本原理:计算当前图片类别占总类别的概率,从中找到占比最大的,就认定该图片从属于这个类。代码:构造分类器,并存储文件为bayes.py。# -*- coding: utf-8 -*-"""Created on Mon Oct 8 15:27:37 201...

2018-10-09 16:46:16 5202 3

原创 基于KNN分类算法手写数字识别的实现(二)——构建KD树

上一篇已经简单粗暴的建立了一个KNN模型对手写图片进行了识别,所以本篇文章采用构造KD树的方法实现手写数字的识别。上一篇链接:https://blog.csdn.net/qq_33361618/article/details/82887121(一)构造KD树构造KD树的基本原理网上都有介绍,所以废话不多说,直接上代码。#Knn KD_Tree算法import mathfro...

2018-09-30 14:30:28 1176

原创 基于KNN分类算法手写数字识别的实现(一)——蛮力实现

KNN邻近算法可用于分类,也可用于回归,具体的原理介绍参考博文http://www.cnblogs.com/v-July-v/archive/2012/11/20/3125419.html本篇主要包括:手写数字图片的识别和KNN的实现。因为KNN分类算法通过距离来确定最近邻。距离算法有欧氏距离、曼哈顿距离和闵可夫斯基距离等,本篇主要使用欧氏距离。 通过找到K个最近邻做预测,计算预测样本...

2018-09-28 18:16:28 1319

原创 Python机器学习——学习曲线

机器学习分为有监督学习和无监督的学习。有监督学习:对数据的若干特征与若干标签之间的关联性进行建模的过程,确定模型后就能应用到新的未知数据中。进一步可以分为分类和回归任务。分类对应离散型数据,而回归对应的是连续性数据。SVM、随机森林和神经网络属于有监督的学习。无监督学习:对不带任何标签的数据特征进行建模。包括聚类和降维,例如k-means算法等。其中半监督学习介于二者之间,适用于数据标...

2018-09-27 14:01:07 6331 2

原创 MySQL数据库设计及SQL语句(二)

本篇文章主要讲解通过SQL语句进行数据预处理的操作。包括正则表达式、数据的截取、分割以及注释查询内容。1.将多属性字段分割成多个字段示例数据:"中国 台湾",或者"中国/台湾",需要将"中国"和"台湾"提取出来形成新的两个字段。这个时候就需要用到MySQL的substring_index(字段/字符串, 分割符, 位置)函数代码:SELECT SUBSTRING_INDEX(...

2018-09-25 18:02:34 483

原创 Python数据处理(三)——美国西雅图自行车流量可视化

目的:熟悉时间序列数据的处理方法和时间序列的使用,并用可视化展示出来。下载数据:可以通过复制链接下载;也可以通过软件直接下载,下载文件存放在当前工作目录下。数据来源:#下载数据 !curl -o FremontBridge.csv https://data.seattle.gov/api/views/65db-xm6k/rows.csv?accessType=DOWNLOAD代码:!...

2018-09-25 00:34:28 4031

原创 Python数据处理(二)——美国人的生日

本篇文章的目的:以美国人的生日统计分析为例,熟练统计分组的操作,基本的数据可视化图形绘制;涉及到Python 中的numpy、pandas和matplotlib库,包括:df.pivot_table()、plt.ylabel()、np.percentile()、df.query()等函数。本篇也涉及到用Sigma -clippin去除异常值,时间格式的转换等。数据来源:https://gith...

2018-09-21 10:13:52 2237

原创 Python数据分析随笔(一)

在用Python做数据处理时,我都会习惯性的使用describe()函数,因为小编最先接触到的是用R语言进行处理,R语言常用的几个统计函数包括summary()和describe(),其中R的summary()函数和Python的describe()函数的差不多,差不多需要的统计结果都能通过这个函数得出。这个时候,小编就有疑问,当数据含有缺失值时,进行平均值,中位数受缺失值的影响,平均值和中位数是...

2018-09-19 16:57:46 321

原创 Python数据处理(一)——以美国各州统计数据为例

编写本篇文章的目的:了解Python数据处理的基本步骤,计算美国各州的人口密度,数据来源:https://github.com/jakevdp/data-USstates/,共3张数据表格:state-population.csv,state-areas.csv,state-abbrevs.csv数据说明:人口数量表 state-population.csv 字段 state/...

2018-09-19 14:31:49 6197 1

原创 MySQL 数据库系统设计即SQL语句 (一)

创建表,如果表存在,则删除表DROP TABLE if EXISTS tel_1CREATE TABLE tel_1( id INT(6) PRIMARY KEY NOT NULL AUTO_INCREMENT, tel VARCHAR(13) CHECK (LENGTH(tel) = 13))SQL 实现ID自增长后的重新排序:(使用情况:导入数据中没有自带的ID段,且ID作...

2018-09-18 13:57:58 562

原创 scrapy之爬虫初体验

本篇文章主要将怎样创建一个scrapy项目,以及完成第一个scrapy爬虫项目。首先是安装scrapy模块,有很多原因都能导致scrapy模块安装失败,网上有很多教程让怎样安装scrapy。亲测比较有效的方法使用whl文件安装。不过有小伙伴也可以尝试直接使用pip install scrapy命令进行直接装,运气好的就能一次装成功。第一步:创建一个爬虫项目:window系统下按住win+R组合键,...

2018-07-06 00:24:08 1581

转载 Python多线程实现

Python多线程编程中常用方法:1、join()方法:如果一个线程或者在函数执行的过程中调用另一个线程,并且希望待其完成操作后才能执行,那么在调用线程的时就可以使用被调线程的join方法join([timeout]) timeout:可选参数,线程运行的最长时间2、isAlive()方法:查看线程是否还在运行3、getName()方法:获得线程名4、setDaemon()方法:主线程退出时,需要...

2018-06-28 22:49:59 174

原创 Python爬虫urllib笔记整合

    本篇文章主要整理出urllib爬取post网页、爬虫异常处理、模拟浏览器、采取IP代理的实现程序,其中包括爬取新浪的个人界面、新闻,csdn博客,淘宝图片四个例子作为说明。    程序一:爬取post网页文件。    第一步:进行网页爬取的关键在于了解网页结构,清楚网页代码,找到自己需要的网页内容(一般指所在标签,类别,样式等)是什么;本次程序是找到post表单所在位置并了解必须传递的参数...

2018-06-27 23:58:30 254

原创 Python—csv模块学习笔记

    Python提供一个csv的使用模块,但与numpy模块下带有的csv模块有所区别,numpy模块的csv多用于辅助于统计计算。但具体怎样,小编还没有涉及。本编主要讲csv模块读写的操作。本篇的代码基于Python3。        csv模块读入操作:with open('E:\csd学院汇总表.csv', 'rt') as f: #rt表示按文本读入,rb表示按二进制读入 sf...

2018-06-27 00:14:57 374

原创 Python爬虫实战一:爬取csdn学院所有课程名、价格和课时

      作为菜鸟进行的第一个Python爬虫,由于该网站较简单(没有设置反扒机制和需要的内容能直接从网页源码中找到),且只爬取csdn学院课程的课程和价格,所以,整体而言较为简单和基础。本篇文章使用urllib和正则表达式进行爬取。步骤一:     分析网站,建议使用能查看网页源码的浏览器分析网站,找到所有课程,价格和课时;     课程名所在位置: <img src="https:/...

2018-06-23 01:14:21 2057

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除