yihan.z-CSDN博客

原创逻辑回归实现分类计算（二）

在上一篇逻辑回归分类计算中，模型的准确率为0.1，准确率较差且在分类1的模型预测结果显示中效果极差。在网上查找了各种逻辑回归分类的代码分析。发现错误还是在梯度下降算法计算回归系数的上，导致模型预测的精确度不高。所以本次更改梯度下降算法来进行新的预测。损失函数为：对θ求导得到梯度：更新回归系数：同时也对因变量进行修改，不再对因变量处理成[-6,6]的线性数据。将因变量...

2018-10-18 17:30:52 1207

原创逻辑回归实现分类计算

一、算法原理：1.线性回归算法给定由n个属性(维度)描述的示例x=(x1;x2;…;xn),其中xi是x在第i个属性上的取值，线性模型试图学的一个通过属性的线性组合来进行预测的函数，即也可以写成：w为回归系数，b为常量。线性回归通常用来处理连续性变量，当因变量f(x)为离散变量，比如分类变量时，线性回归就显得不那么实用，这时候就需要采用其他方法来处理分类问题。2.逻...

2018-10-12 17:44:36 2344

原创基于朴素贝叶斯手写数字的识别

贝叶斯分类器也广泛应用于分类的实现。特别是文本的识别。本次主要介绍用朴素贝叶斯，在独立检验的条件下实现手写数字的识别。基本原理：计算当前图片类别占总类别的概率，从中找到占比最大的，就认定该图片从属于这个类。代码：构造分类器，并存储文件为bayes.py。# -*- coding: utf-8 -*-"""Created on Mon Oct 8 15:27:37 201...

2018-10-09 16:46:16 5494 2

原创基于KNN分类算法手写数字识别的实现（二）——构建KD树

上一篇已经简单粗暴的建立了一个KNN模型对手写图片进行了识别，所以本篇文章采用构造KD树的方法实现手写数字的识别。上一篇链接：https://blog.csdn.net/qq_33361618/article/details/82887121（一）构造KD树构造KD树的基本原理网上都有介绍，所以废话不多说，直接上代码。#Knn KD_Tree算法import mathfro...

2018-09-30 14:30:28 1361

原创基于KNN分类算法手写数字识别的实现（一）——蛮力实现

KNN邻近算法可用于分类，也可用于回归，具体的原理介绍参考博文http://www.cnblogs.com/v-July-v/archive/2012/11/20/3125419.html本篇主要包括：手写数字图片的识别和KNN的实现。因为KNN分类算法通过距离来确定最近邻。距离算法有欧氏距离、曼哈顿距离和闵可夫斯基距离等，本篇主要使用欧氏距离。通过找到K个最近邻做预测，计算预测样本...

2018-09-28 18:16:28 1414

原创 Python机器学习——学习曲线

机器学习分为有监督学习和无监督的学习。有监督学习：对数据的若干特征与若干标签之间的关联性进行建模的过程，确定模型后就能应用到新的未知数据中。进一步可以分为分类和回归任务。分类对应离散型数据，而回归对应的是连续性数据。SVM、随机森林和神经网络属于有监督的学习。无监督学习：对不带任何标签的数据特征进行建模。包括聚类和降维，例如k-means算法等。其中半监督学习介于二者之间，适用于数据标...

2018-09-27 14:01:07 6516

原创 MySQL数据库设计及SQL语句（二）

本篇文章主要讲解通过SQL语句进行数据预处理的操作。包括正则表达式、数据的截取、分割以及注释查询内容。1.将多属性字段分割成多个字段示例数据："中国台湾"，或者"中国/台湾"，需要将"中国"和"台湾"提取出来形成新的两个字段。这个时候就需要用到MySQL的substring_index(字段/字符串, 分割符, 位置)函数代码：SELECT SUBSTRING_INDEX(...

2018-09-25 18:02:34 583

原创 Python数据处理（三）——美国西雅图自行车流量可视化

目的：熟悉时间序列数据的处理方法和时间序列的使用，并用可视化展示出来。下载数据：可以通过复制链接下载；也可以通过软件直接下载，下载文件存放在当前工作目录下。数据来源：#下载数据 !curl -o FremontBridge.csv https://data.seattle.gov/api/views/65db-xm6k/rows.csv?accessType=DOWNLOAD代码：!...

2018-09-25 00:34:28 4403

本篇文章的目的：以美国人的生日统计分析为例，熟练统计分组的操作，基本的数据可视化图形绘制；涉及到Python 中的numpy、pandas和matplotlib库，包括：df.pivot_table()、plt.ylabel()、np.percentile()、df.query()等函数。本篇也涉及到用Sigma -clippin去除异常值，时间格式的转换等。数据来源：https://gith...

2018-09-21 10:13:52 2552

原创 Python数据分析随笔（一）

在用Python做数据处理时，我都会习惯性的使用describe()函数，因为小编最先接触到的是用R语言进行处理，R语言常用的几个统计函数包括summary()和describe()，其中R的summary()函数和Python的describe()函数的差不多，差不多需要的统计结果都能通过这个函数得出。这个时候，小编就有疑问，当数据含有缺失值时，进行平均值，中位数受缺失值的影响，平均值和中位数是...

2018-09-19 16:57:46 426

原创 Python数据处理（一）——以美国各州统计数据为例

编写本篇文章的目的：了解Python数据处理的基本步骤，计算美国各州的人口密度，数据来源：https://github.com/jakevdp/data-USstates/，共3张数据表格：state-population.csv，state-areas.csv，state-abbrevs.csv数据说明：人口数量表 state-population.csv 字段 state/...

2018-09-19 14:31:49 6613 1

原创 MySQL 数据库系统设计即SQL语句（一）

创建表，如果表存在，则删除表DROP TABLE if EXISTS tel_1CREATE TABLE tel_1( id INT(6) PRIMARY KEY NOT NULL AUTO_INCREMENT, tel VARCHAR(13) CHECK (LENGTH(tel) = 13))SQL 实现ID自增长后的重新排序：（使用情况：导入数据中没有自带的ID段，且ID作...

2018-09-18 13:57:58 663

原创 scrapy之爬虫初体验

本篇文章主要将怎样创建一个scrapy项目，以及完成第一个scrapy爬虫项目。首先是安装scrapy模块，有很多原因都能导致scrapy模块安装失败，网上有很多教程让怎样安装scrapy。亲测比较有效的方法使用whl文件安装。不过有小伙伴也可以尝试直接使用pip install scrapy命令进行直接装，运气好的就能一次装成功。第一步：创建一个爬虫项目：window系统下按住win+R组合键，...

2018-07-06 00:24:08 1697

转载 Python多线程实现

Python多线程编程中常用方法：1、join()方法：如果一个线程或者在函数执行的过程中调用另一个线程，并且希望待其完成操作后才能执行，那么在调用线程的时就可以使用被调线程的join方法join([timeout]) timeout：可选参数，线程运行的最长时间2、isAlive()方法：查看线程是否还在运行3、getName()方法：获得线程名4、setDaemon()方法：主线程退出时，需要...

2018-06-28 22:49:59 235

原创 Python爬虫urllib笔记整合

本篇文章主要整理出urllib爬取post网页、爬虫异常处理、模拟浏览器、采取IP代理的实现程序，其中包括爬取新浪的个人界面、新闻，csdn博客，淘宝图片四个例子作为说明。程序一：爬取post网页文件。第一步：进行网页爬取的关键在于了解网页结构，清楚网页代码，找到自己需要的网页内容（一般指所在标签，类别，样式等）是什么；本次程序是找到post表单所在位置并了解必须传递的参数...

2018-06-27 23:58:30 375

原创 Python—csv模块学习笔记

Python提供一个csv的使用模块，但与numpy模块下带有的csv模块有所区别，numpy模块的csv多用于辅助于统计计算。但具体怎样，小编还没有涉及。本编主要讲csv模块读写的操作。本篇的代码基于Python3。 csv模块读入操作：with open('E:\csd学院汇总表.csv', 'rt') as f: #rt表示按文本读入，rb表示按二进制读入 sf...

2018-06-27 00:14:57 432

原创 Python爬虫实战一：爬取csdn学院所有课程名、价格和课时

作为菜鸟进行的第一个Python爬虫，由于该网站较简单（没有设置反扒机制和需要的内容能直接从网页源码中找到），且只爬取csdn学院课程的课程和价格，所以，整体而言较为简单和基础。本篇文章使用urllib和正则表达式进行爬取。步骤一：分析网站，建议使用能查看网页源码的浏览器分析网站，找到所有课程，价格和课时；课程名所在位置： <img src="https:/...

2018-06-23 01:14:21 2254

qq_33361618的博客