自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 使用机器学习,实现对某品牌设备的售价评估预测

最近,看了一篇用机器学习来预测房屋价格的文章:httphttps://github.com/TomorrowIsBetter/crawler/blob/master/price_prediction/README.md://于是我就想着能不能把我手头的某品牌设备的价格也进行评估预测,算法用的是SVR回归分析。整个过程的思路其实很简单。1.数据获取。在我参考的博客中,原作者是从58同...

2018-07-18 08:25:42 658

原创 python中matplotlib简单的使用

今天学习了matplotlib中的简单使用,其实和以前项目中用到的matlab语句的plot,subplot差不多的。import pandas as pd # 导入pandas库import matplotlib.pyplot as plt # 导入pyplot模块import numpy as npunrate = pd.read_csv('UNRAT...

2018-07-13 17:05:50 293

原创 python中pandas工具包

最近爬虫中的数据要用到dataframe数据框,所以学习了pandas工具包,这个包中dataframe部分还是跟R语言中有点像。用起来差不多,但是部分语法还是有不同的。import pandas as pdimport numpy as npfrom pandas import Series,DataFrame# Series类似于一位数组,它由一组数据以及对应的数据标签(即索引)组成,...

2018-07-13 12:03:10 685

原创 python中numpy模块初级使用

import numpy as npimport pylabimport mathimport random# 1.reshape()重构a=np.arange(15).reshape(3,5)print(a)# 2.返回数组结构print(a.shape)# 3.返回数组的维数print(a.ndim)# 4.dtype.name itemsize size 分别表示数组中...

2018-07-13 08:20:20 200

原创 Python爬虫爬取51job招聘网站(二)

这个工具是对上一个工具的优化,用到了gevent的并发来加快爬虫运行速度# python爬51job工具,稍微改改就可以爬其他网站import csv # 爬下来的数据要写到csv文件中,所以要引入这个模块from urllib import request, error,parsefrom lxml import etree # 元素树用来进行xpath语...

2018-07-12 16:52:41 2593

原创 Python爬虫爬取51job招聘网站

最近学习爬虫,做了一个python爬虫工具写在这里记录一下。# python爬51job工具,稍微改改就可以爬其他网站import csv # 爬下来的数据要写到csv文件中,所以要引入这个模块from urllib import request, errorfrom lxml import etree # 元素树用来进行xpath语法解析时,import...

2018-07-11 19:20:59 7042 1

原创 R建模之回归(一)

3种常见的回归模型:线性回归(预测连续型变量比如婴儿出生体重),逻辑回归(预测二元变量比如过低出生体重与正常出生体重),泊松分布(计数比如每年或每个国家过低出生体重婴儿人数)我们以gamlss.data包提供的usair数据集进行研究,US空气污染数据集。我们希望预测根据城市面积(以人口规模/千人为统计依据)估计的空气污染程度(这里也就是数据集中的x3),空气污染以每立方米空气中二氧化硫的含量(毫...

2018-05-30 18:29:37 2253

原创 R建模之回归(二)

第一节是建立线性回归模型以及对于其模型预测效果的讨论,这一节做一下模型中引入一个离散型预测变量。依然使用上一节中的usair数据集,在模型中增加x5(降水量:年度发生降雨的天数)作为预测变量,该预测变量有三种类别(低、中、高),将他们的分界点划分为30天和45天,研究降水量和so2浓度是否存在关联,模型建立如下所示:plot(y~x5,data=usair,cex.lab=1.5) ...

2018-05-30 18:29:03 1028

原创 向R中导入数据

library(RODBC) myconn<-odbcConnect("v5",uid="sa",pwd="123456")data<-sqlQuery(myconn,"select * from [****] where ****")close(myconn);1.通过odbc数据源导入ms sql数据,这需要提前设置odbc数据源,具体参考博客点击打开链接2.csv文件通...

2018-05-24 20:58:22 2231

原创 R语言和sql server相连

我这里考虑用odbc和jdbc的方式进行连接。1.odbc:开放数据库连接(Open Database Connectivity,ODBC)是为解决异构数据库间的数据共享而产生的,现已成为WOSA(The Windows Open System Architecture ),Windows开放系统体系结构)的主要部分和基于Windows环境的一种数据库访问接口标准ODBC 为异构数据库访问提供统一...

2018-05-24 20:57:24 3056

原创 sql练习题记录第一部分

最近做的sql练习题,保存下来。1.查找最晚入职员工的所有信息CREATE TABLE `employees` (`emp_no` int(11) NOT NULL,`birth_date` date NOT NULL,`first_name` varchar(14) NOT NULL,`last_name` varchar(16) NOT NULL,`gender` char(1) NOT NU...

2018-05-24 20:54:35 295

原创 R语言数据筛选、汇总、重构

最近学习的知识点总结如下:3.1 去掉多余的数据

2018-05-24 16:36:03 47002 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除