自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 Es简单操作以及部署到springboot(2020年7月)

以下内容的文字稿在家里电脑上,现将部分截图发出来,以防止后期要用到这块知识突然忘记。等下次回家,会重新整理的~Should 模糊匹配;must 必须匹配ES维护最小次元到文档ID的映射,如图通过logstash,运行配置好的mysql.conf,将mysql数据库同步至ElasticSearchGithub: 适合中文的分词器。默认分词器不能很好分割中文词组“他们很厉害”,默认:他,们,很,厉,害 Ik:他们,很厉害https://g

2020-10-29 10:31:22 53

原创 【计算社会科学01】为何病菌屡屡将人类推向死神?人类该如何应对

“细胞与病菌,情仇交织三十亿年,像极了爱情。”前言(2图片转场 + 1“咬牙切齿”)翻开人类文明发展史,常常会找到一个个推动历史的代表人物。如“日心说”哥白尼。但我们常常忽略了另一只手——病菌。关于病菌,人们往往对它咬牙切齿,认为它是危害人类生命的重要祸害。但眼光拉远一些,大家会发现早在人类出现之前:细胞与病菌,已经爱恨情仇三十亿年,最终选择了共同进化。前言-目录(参考导图)历史上的病菌(1街角+ 1 牧师诊治 + 1文艺复兴 +1 香港鼠疫解剖)为了正确对待病菌,让我们先回到1347年的欧洲

2020-10-20 09:58:32 54 1

原创 数据标签开发之SparkSQL

书中简介注意Tree和Rules的概念1) 将SQL语句通过词法和语法解析生成未绑定的逻辑计划(包含UnresolvedRelation、Unresolved Function和Unresolved Attribute),然后在后续步骤中使用不同的Rule应用到该逻辑计划上;2) Analyzer使用Analyzer Rules,配合数据元数据(如Sessioncatalog或Hive Metastore等),完善未绑定的逻辑计划的属性而转换成绑定的逻辑计划。具体流程是先实例化一个Simple A

2020-08-03 09:17:54 74

原创 大数据环境部署 Vagrant/ Git/ Xshell/ Docker/ Hive/ Spark

环境部署1.虚拟机Ubuntu测试:1.1 查看IP地址:ip addr1.2 虚拟机内部Ping www.baidu.com,观察丢包率1.2 Windows环境下,Ping 虚拟机系统网络,观察掉包率1.3 虚拟机环境中,选择下载源 aliyun“软件和更新”-“下载自”-“更多方式”-“aliyun”2. Vagrant官网-FindBoxes-Search Boxes-Vagrantfile/New2.1 安装Git-打开GitBash-导入New-开始下载-当目录生成下载

2020-08-03 09:11:55 104

原创 Hive实操:Sqoop/ Mysql/ hdfs /hadoop

Hive实操1.1 docker文件拷贝 docker cp 或通过docker cp –help查看用法:CONTAINER的ID:复制命令格式:1.2 Hive建表creat table student (id int, name string)nrow format delimited fields terminated by ‘\t’ ;select * from student本地数据,加载到hive的student表中:load data local inpath ‘

2020-08-03 09:09:38 72

原创 用户画像入门简介

用户画像基础1.1 用户画像简介用户画像,即用户信息标签化,通过收集用户的社会属性、消费习惯、偏好特征等各个维度的数据,进而对用户或产品特征属性进行刻画,并对这些特征进行分析、统计,挖掘潜在价值信息,从而抽象出用户的信息全貌。一般企业中,数据应用体系的层级划分为:基础平台建设、报表与可视化、产品运营与分析、精细化运营工具以及战略决策。1.2 用户标签类型统计类标签:最基础的标签,如性别、年龄、城市、活跃度等属性。规则类标签:基于用户行为,并由数据人员和运营人员共同制定的规则产生。如定义“消费活跃

2020-08-03 08:22:14 230

原创 2019研究生数学建模D题总结-汽车工况构建

前言2019年研究生数学建模已经过去了,但最终成绩是三等奖,离理想目标还是有不少差距。今天是19年12月,特此总结比赛得失,并与一等奖作品进行对比,寻找差距。本人选择的是D题,内容如下:汽车行驶工况(Driving Cycle)又称车辆测试循环,是描述汽车行驶的速 度­时间曲线(如图 1、2,一般总时间在 1800 秒以内,但没有限制标准,图 1 总 时间为 1180 秒,图 2 总时间为 1800 秒),体现汽车道路行驶的运动学特征,是汽车行业的一项重要的、共性基础技术,是车辆能耗/排放测试方法和

2020-06-18 11:36:47 1684

原创 数据挖掘——航空公司客户价值分析(分析+建模)

前言本次建模项目是来自于《python数据分析与挖掘实战》的案例,是介绍航空公司客户价值的分析,书中给出了关于62988个客户的基本信息和在观测窗口内的消费积分等相关信息,其中包含了会员卡号、入会时间、性别、年龄、会员卡级别、在观测窗口内的飞行公里数、飞行时间等44个特征属性,并用到的聚类方法是K-Means方法。本文是为2019年数学建模做准备,在原文基础上,进行了部分改进,主要步骤如下:数据探索性分析——数据的分布情况数据预处理——缺失值和异常值分析与清理属性规约——构造有价值的属性数据变

2020-06-17 14:43:28 1570 1

原创 SpringBoot总结【注解,项目配置,Controller,RESTful API,数据库操作,事务】

1. 原理与优势SpringBoot是一个便捷开发框架,能很好地将一些常用的第三方依赖整合(原理:通过Maven子父工程的方式),简化XML配置,全部采用注解形式,内置Http服务器(Tomcat),最终以java应用程序进行执行。核心优势:1>无配置文件(纯Java)完全注解化+2> SpringBoot核心快速整合第三方框架原理:Maven继承依赖关系。SpringBoot的实现是由启动器和自动配置以及大量的注解来完成的。启动器是我们在pom文件中引入的依赖;自动配置是Spring

2020-05-29 14:25:12 426

原创 Python爬虫总结(CSS,Xpath,JsonLoad;静态网页,JS加载,Ajax异步请求)

前言随着人类社会的高速发展,数据对各行各业的重要性,愈加重要。爬虫,也称为数据采集器,是指通过程序设计,机械化地对网络上的数据,进行批量爬取,以代替低效的人工获取信息的手段。1. 道德法律问题爬虫目前在法律上尚属灰色地段,但爬别的网站用于自己的商业化用途也可能存在着法律风险。非法抓取使用“新浪微博”用户信息被判赔200万元,这是国内的一条因爬虫被判败诉的新闻。所以各商业公司还是悠着点,特别是涉及隐私数据。大型的网站一般都会有robot.txt,这算是与爬虫者的一个协议。只要在robot.txt允许.

2020-05-22 22:12:10 724

空空如也

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除