- 博客(12)
- 收藏
- 关注
转载 Hadoop初识
一、大数据介绍二、Hadoop介绍—jdk安装三、Hadoop安装及配置转载于:https://www.cnblogs.com/kkdaddd/p/8900688.html
2018-04-21 13:09:00 123
转载 MySQL的my.ini配置文件
[client]port = 3306socket = /var/lib/mysql/mysql.sock[mysql]#这个配置段设置启动MySQL服务的条件;在这种情况下,no-auto-rehash确保这个服务启动得比较快。 no-auto-rehash [mysqld] user = mysql port = 3306 socket = /va...
2018-04-20 13:29:00 149
转载 python中的绘图包ggplot用法总结
ggplot是基于R的ggplot2和Python的绘图系统。它的构建是为了用最少的代码快速绘制专业又美观的图表。 ggplot与python中的pandas有着共生关系。如果打算使用ggplot,最好将数据保存在DataFrames中。即若想使用ggplot,先将数据转化为dataframe形式,以下我们先来介绍下pandas读取数据的方式。一、pandas读取数...
2018-03-31 14:05:00 1596
转载 pandas用法总结
一、pandas基础二、pandas函数转载于:https://www.cnblogs.com/kkdaddd/p/8663221.html
2018-03-28 12:46:00 69
转载 sklearn.datasets中的数据集案例(集合)
一、sklearn.datasets数据集介绍 机器学习sklearn中的datasets模块提供了一些自带的小数据集。数据集是一个类似字典的对象,特征数据存储在.data成员中,它是n_samples,n_features数组。 在监督问题的情况下,一个或多个响应变量存储在.target中,小白在入门时可以利用这些小数据集做一些简单的算法模型,初步感受下sk...
2017-12-11 17:34:00 2723
转载 Elasticsearch中父子表上传及查询使用
一、Elasticsearch中父子表上传二、Elasticsearch中父子表查询 1、通过父表查询子表 2、通过子表查询父表转载于:https://www.cnblogs.com/kkdaddd/p/7910543.html...
2017-11-28 16:13:00 522
转载 python中的正则表达式使用案例
一、正则表达式的基本语法二、python中的re模块转载于:https://www.cnblogs.com/kkdaddd/p/7910520.html
2017-11-28 16:10:00 79
转载 MySQL函数使用案例大全
一、清洗数据函数1.清洗数据使用最多的函数之一应该是regexp2.regexp主要是用来找到符合条件的数据,找到后会经常用到substringindex函数进行数据清洗3.replace函数4.concat拼接函数二、时间函数三、计算函数1.分类后进行同类型之间数据的排序(1)数据(2)需求:根据nic进行行业分类,分类后按照专利数量A01...
2017-11-28 16:06:00 187
转载 Scrapy爬虫编写流程—以爬取智联为例
本文以爬取智联招聘上数据分析师职位信息为例,介绍一下scrapy爬虫编写的一般流程。转载于:https://www.cnblogs.com/kkdaddd/p/7910451.html
2017-11-28 16:02:00 122
转载 分割数据的N种办法
一、使用MySQL函数进行分割二、使用正则表达式进行分割转载于:https://www.cnblogs.com/kkdaddd/p/7910413.html
2017-11-28 15:57:00 366
转载 洗数据的那些坑
最近爬虫爬来好多数据,清洗入库过程中遇到一些小磕磕绊绊,现总结一下。一、JSON字符串格式的数据 1.首先解析json字符串,并提取出相应字段,但每个json文本的字段不一定全都有,提取字段值时会出现因找不到key值而报错,此时可以用python的三元表达式,解析提取代码如下: 2.将解析提取字段插入数据库,发现数据...
2017-11-28 15:23:00 145
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人