数据挖掘
霞露
侠岚之名,意为守护。
展开
-
Matlab 数据类型
数值类型--整数类型Matlab中的整数类型,不同的整数类型占据的位数不同,实际应用中,应根据实际需求合理选择合适的整数类型。Matlab中数值默认是以双精度浮点类型存储,在不超出数值范围的情况下,任意两个整数之间可以通过转换函数互相转换。 *因为不同整数的数值范围不同,当运行结果超出相应整数类型能够表示的范围,运算结果会跳转为改整数能够表示的最大或最小数。Matlab中的取...原创 2019-01-18 13:28:34 · 4272 阅读 · 0 评论 -
[Tools] 分享几个实用的 jupyter notebook 扩展功能
目录一、快速安装:二、功能推荐:1.代码导航功能2.变量检查器3.显示单元格运行的时间和长度4.折叠/放下标题5.折叠代码6.隐藏代码7.代码自动补全8.通知9.隐藏活动状态栏10.tqdm_notebook为循环代码显示执行进度条一、快速安装:命令板中运行:pip install jupyter_contrib_nbextensio...原创 2019-04-21 14:48:24 · 4556 阅读 · 6 评论 -
[Python] python + selenium 抓取 京东商品数据(商品名称,售价,店铺,分类,订单信息,好评率,评论等)
目录一、环境二、简介三、京东网页分析1.获取商品信息入口--商品列表链接获取2.获取商品信息入口--商品详情链接获取3.商品详情获取4.商品评论获取四、代码实现五、运行结果六、结语一、环境 win10 + python 3.7 + pycharm64 + selenium二、简介 抓取京东商品页面信息:商品名称,...原创 2019-03-29 21:17:12 · 19066 阅读 · 16 评论 -
[Python] Python爬虫 抓取51job职位信息存储到excel和mysql 的代码编写及首次优化始末
目录需求:初版:初版代码review:优化:首次优化后代码:需求: 编写函数,可以指明抓取某职位以及页数实现抓不同职位时(用正则和request),存到同一个excel中的不同sheet中,并将数据存到mysql中初版: 以下是第一次编写代码时的思路#编写正则def getjobname(jobname,startnum,...原创 2019-03-19 21:03:06 · 1133 阅读 · 0 评论 -
豆瓣影片TOP250排名分析报告-PPT呈现
原创 2019-01-23 18:00:00 · 3462 阅读 · 1 评论 -
SAS 数据集操作
目录数据的合并纵向合并横向合并数据集排序数据对比数据查重数据筛选变量筛选观测筛选数据的合并将不同的数据内容合并到一个数据集就是数据合并。纵向合并SAS中用SET语句进行纵向合并,语法格式为:DATA 数据集;SET 数据集1(数据集选项) 数据集2(数据集选项) …… ;RUN;*SET语句的作用是将若干个数据依次纵向连...原创 2019-01-08 16:55:22 · 4496 阅读 · 0 评论 -
SAS变量的输入和输出及决策结构和循环语句
SAS变量的输入和输出格式输入输出 SAS输入输出的基本格式很简单: 输入:INPUT 变量1 输入格式1 变量2 输入格式2……; 输出:FORMAT 变量1 输入格式1 变量2 输入格式2……; *中间需以空格间隔输入格式很简单,但是不同变量类型的输入格式是不同的 指定输入格式会改变变量的值,但是指定输出格式不会改变变量的值,只是改变他们显示的样子数值型变量的输入格式数...原创 2019-01-07 20:34:14 · 1946 阅读 · 0 评论 -
SAS 编程基础
一个SAS语句由SAS关键词、SAS名字、特殊字符串构成,并以分号(;)结尾,它要求SAS系统执行一种操作或给SAS系统提供信息。SAS关键词许多SAS语句都是以关键词开始,并用它识别语句的类型,如DATA、INPUT、PROC和INFILE都被成为关键词。SAS名字SAS语句中出现名字的地方很多,如变量名、数据集名、格式名、过程名及作为文件名和库标记的特殊名字。 S...原创 2019-01-07 19:04:05 · 4716 阅读 · 0 评论 -
SPSS Modeler 入门(一)
IBM SPSS Modeler 在历史数据中发现模式以预测未来事件,做出更好的决策,实现更好的成效。IBM SPSS Modeler 是一个专门的数据挖掘工具,它是用来建立预测模型和进行其他分析任务的。其可视化界面允许用户利用统计和数据挖掘算法,无需编程。SPSS Modeler 18.0 界面介绍连接各类数据源载入数据源后的设置基...原创 2018-11-08 21:59:51 · 28934 阅读 · 5 评论 -
数据挖掘概述
什么是数据挖掘数据挖掘(Data Mining,又译为资料探勘、数据采矿)。它是数据库知识发现(Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘,一般是指从大量的数据中自动搜索隐藏于其中的特殊关系型的信息的过程。数据挖掘在技术上的定义是指从大量的、不完全的、有噪声的、模糊的和随机的数据中,提取隐含在其中的、事先不知道的,但又有潜在有用信...原创 2018-11-08 20:05:32 · 9031 阅读 · 0 评论 -
SPSS Modeler 项目实战之超市商品购买关联分析
原创 2019-01-14 19:53:39 · 7118 阅读 · 141 评论 -
Matlab 数据可视化
图形绘制的基本概念一个二元实数坐标(x,y)就可以对应平面上的一个点。绘制一个点:线是由连续的点组成的。绘制一组点:绘制一条线Matlab只能实现有限区间内的数据可视化。Ma无法画出真正的连续函数,通常用以下两种办法实现类似效果: 1.对离散区间进行更细致的划分,逐步趋近函数的连续变化特性,直到达到视觉上的连续效果 2.把每两个离散点用直线连接,以每两个离散...原创 2019-01-18 13:35:11 · 11434 阅读 · 0 评论 -
Matlab 编程基础
M文件编辑器Matlab中使用文本编辑器代替命令行窗口来创建一个.m文件以保存执行指令。 变量输入和输出程序的流程控制if-else-end 分支结构比较常用于连续结果的处理*若判断条件为真,则执行命令组,否则跳过该命令组。 if expression commands end*若可供选择的执行命令组有2组,则采用以下结构。 if ...原创 2019-01-18 13:33:35 · 42915 阅读 · 2 评论 -
[Python] scrapy + selenium 抓取51job 职位信息(实现 传参 控制抓取 页数+职位名称+城市)
目录一、目标二、51job网页分析:1.网页构成观察2.网页分析三、代码实现1. 踩过的坑-----实现城市选择2.代码实现3.代码优化1)存放格式优化2)在爬虫中去掉\xa0\xa03)用normalize-space(节点)去掉\r\n\t4.pipelines.py 定义存储一、目标实现 通过传参(职位和地区)控制抓取51...原创 2019-04-21 20:01:43 · 3319 阅读 · 14 评论