自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 LeetCode------21.合并两个有序链表

Java版: package tencent; /** * 将两个有序链表合并为一个新的有序链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。 * * 示例: * * 输入:1->2->4, 1->3->4 输出:1->1->2-&...

2020-02-10 11:28:26 47 0

原创 LeetCode------回文数

Java版一: package tencent; /** * 判断一个整数是否是回文数。回文数是指正序(从左向右)和倒序(从右向左)读都是一样的整数。 * * 示例 1: * * 输入: 121 输出: true 示例2: * * 输入: -121 输出: false 解...

2020-02-10 11:07:57 23 0

原创 LeetCode------反转字符串

Java版一: package tencent; /** * 编写一个函数,其作用是将输入的字符串反转过来。输入字符串以字符数组 char[] 的形式给出。 * * 不要给另外的数组分配额外的空间,你必须原地修改输入数组、使用 O(1) 的额外空间解决这一问题。 * * 你可以...

2020-02-09 22:25:24 35 0

原创 LeetCode------整数拆分

Java版一: package tencent; /** * 给定一个正整数n,将其拆分为至少两个正整数的和,并使这些整数的乘积最大化。 返回你可以获得的最大乘积。 * * 示例 1: * * 输入: 2 输出: 1 解释: 2 = 1 + 1, 1 × 1 = 1。 示例2:...

2020-02-09 19:21:41 41 0

原创 LeetCode------寻找两个有序数组的中位数

Java版一: package tencent; /** * 给定两个大小为 m 和 n 的有序数组nums1 和nums2。 * * 请你找出这两个有序数组的中位数,并且要求算法的时间复杂度为O(log(m + n))。 * * 你可以假设nums1和nums2不会同时为空。...

2020-02-09 16:39:44 33 0

原创 LeetCode------无重复字符的最长子串

Java版一 package tencent; import java.util.HashSet; import java.util.Set; /** * 给定一个字符串,请你找出其中不含有重复字符的最长子串的长度。 示例1: 输入: "abcabcbb" ...

2020-02-09 15:23:34 21 0

原创 LeetCode------两数之和

Java版一: package tencent; /** * 给定一个整数数组 nums和一个目标值 target,请你在该数组中找出和为目标值的那两个整数,并返回他们的数组下标。 你可以假设每种输入只会对应一个答案。但是,你不能重复利用这个数组中同样的元素。 示例: 给定 nums...

2020-02-09 11:26:07 13 0

转载 微表情识别

表情识别 2019.12更新了仓库依赖。 简介 使用卷积神经网络构建整个系统,在尝试了Gabor、LBP等传统人脸特征提取方式基础上,深度模型效果显著。在FER2013、JAFFE和CK+三个表情识别数据集上进行模型评估。 环境部署 基于Python3和Keras2(TensorFl...

2020-01-05 15:43:09 509 0

原创 什么是SVM

一、什么是SVM SVM主要针对小样本数据进行学习、分类和预测(有时也叫回归)的一种方法,有很好的泛化能力 二、SVM原理 举个例子: 好吧,故事是这样子的: 在很久以前的情人节,大侠要去救他的爱人,但魔鬼和他玩了一个游戏。 魔鬼在桌子上似乎有规律放了两种颜色的球,说:“你用一根棍分开...

2020-01-02 21:58:23 172 0

原创 机器学习快速入门

1、课程介绍 学习前提 对微积分,线性代数,概率论的基本知识有一定了解 有一定编程基础(最好是Python) 学习目标 理解机器学习的概念、原理、常用算法 学会对原始数据的预处理 学会使用Python语言和相关的机器学习库 学会使用常用算法和应用框架解决实际问题 ...

2019-11-23 17:35:58 204 0

原创 python半小时快速上手

机器学习算法day01_python快速上手 课程大纲 Python快速上手 Python简介 Python集成开发环境 Python基本语法 Python的变量和集合 Python流...

2019-11-23 17:08:22 233 0

原创 第三阶段:数据存储与计算(离线场景):3.4 数据采集flume

概要 Apache Flume 是一个分布式,可靠且可用的系统,用于有效地从许多不同的源收集、聚合和移动大量日志数据到一个集中式的数据存储区。 Flume 的使用不只限于日志数据。因为数据源可以定制,flume 可以被用来传输大量事件数据,这些数据不仅仅包括网络通讯数据、社交媒体产生的数据...

2019-11-23 16:51:35 179 0

原创 第三阶段:数据存储与计算(离线场景):3.3 数据存储alluxio(1T)

Alluxio概览 什么是 Alluxio 优势 技术创新 快速上手指南 下载和有用资源 什么是 Alluxio Alluxio 是世界上第一个面向基于云的数据分析和人工智能的开源的数据编排技术。 它为数据驱动型应用和存储系统构建了桥梁, 将数据从存储层移动到距离数据驱动型应用更近的位...

2019-11-12 15:12:23 182 0

原创 第三阶段:数据存储与计算(离线场景):3.2 数据存储hdfs

云计算 云计算的看法,是忽悠?还是能带来真实价值的东西? 云计算是对现有资源集中优化后,对客户提供服务,从现在的情况来看云计算真实的为大家提供了服务,比如:网盘等。至于云计算更为准确的定义为美国国家标准与技术研究院(NIST)定义:云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按...

2019-11-07 09:28:31 202 0

原创 第二阶段:分布式理论简介:2.4 大数据集成架构概述

一、大数据的发展史 2004年 Google前后发表三篇论文,也就是传说中的“三驾马车” 分页式文件系统GFS 大数据分布式计算框架MapReduce NoSQL数据库系统BigTable 2006年 Doug Cutting启动了一个赫赫有名的项目Hadoop,主要包括Hadoop分...

2019-11-06 17:01:39 27 0

原创 第二阶段:分布式理论简介:2.3 一致性、2PC和3PC

1一致性 1.1 简述 一致性,是指对每个节点一个数据的更新,整个集群都知道更新,并且是一致的 假设一个具有N个节点的分布式系统,当其满足以下条件时,我们说这个系统满足一致性: 全认同: 所有N个节点都认同一个结果 值合法: 该结果必须由N个节点中的过半节点提出 可结束: 决议过程在一...

2019-11-06 16:37:59 26 0

原创 第二阶段:分布式理论简介:2.2数据分布方式

1、数据分布方式 1)哈希方式:按照数据的某一特征计算哈希值,并将哈希值与机器中的机器建立映射关系,从而将不同哈希值的数据分布到不同的机器上。特征就是key-value中的key,也可以是其他与应用业务逻辑相关的值。 2)按数据范围分布:将数据按照特征值的值域范围划分不同的区间,使得集...

2019-11-06 15:16:29 15 0

原创 第二阶段:分布式理论简介:2.1 CAP理论介绍

CAP原则 CAP原则又称CAP定理,指的是在分布式系统的设计中,没有一种设计可以同时满足 Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性)3个特性,这三者不可得兼。 It states, that though its...

2019-11-06 15:09:51 16 0

转载 数据分析思维五大误区

很多同学在问:数据分析有没有标准思路,有没有分析思维模式。答案当然是:有。但绝不是大家日常在公众号看到的各种炫酷名字。什么SOWT,PEST,二八法、切割法、多维法、业务法……这些名字炫酷有余,可解决真实商业问题的时候没一个靠谱的。今天我们正本清源,一次性跟大家解释清楚:哪些数据思维的常见误区。 ...

2019-09-29 17:57:55 68 1

原创 Java基础(三)

什么是数据结构: 数据结构是计算机存储、组织数据的方式。 数据结构是指相互之间存在一种或多种特定关系的数据元素的集合。 通常情况下,精心选择的数据结构可以带来更高的运行或者存储效率。数据结构往往同高效的检索算法和索引技术有关。 常见的数据结构 数组,栈,链表,哈希表,队列,堆,图,树...

2019-08-02 10:32:54 34 0

原创 Java基础(二)

一、件生命周期: 软件生命周期: 软件的产生直到报废的整个过程. 软件生命周期内有:问题定义, 可行性分析, 总体描述, 系统设计,编码, 调试和测试, 验收与运行, 维护升级到废弃等阶段 ---------------------------------------------------...

2019-08-02 10:28:37 30 0

原创 Java基础(一)

计算机语言与编程概述 什么是计算机语言? 生活中的两个人的交流主要是方式无非是采用一种都能够识别的语言,那么也就是说该语言是他们之间传递信息的媒介 计算机语言是指用于人与计算机之间通讯的一种特殊语言,是人与计算机之间传递信息的媒介。 那计算机怎么能读懂我们给它发出的的信息呢? 此时就...

2019-08-02 10:22:38 38 0

原创 离网用户预警

主要功能的帮助文档: matplotlib seaborn pandas scikit-learn 读取数据 pandas可以读取文本文件、json、数据库、Excel等文件 使用read_csv方法读取以逗号分隔的文本文件作为DataFrame head、tail等方法可以浏览部分数据集,可...

2019-07-10 19:15:34 152 1

原创 词云分析

import pandas as pd df_news=pd.read_table(r'C:\Users\CDAer\Desktop\data\car.txt', names=['category','the...

2019-07-10 19:12:57 102 0

原创 分词

1、最大正向匹配的分词 #定义的分词 def getSeg(text,wd_dict): if not text: return '' if len(text)==1: return text if text in wd_...

2019-07-10 19:12:20 103 0

原创 自定义情感分析

import jieba import numpy as np def judgeodd(num): if (num % 2) == 0: return 'even' else: return 'odd' ...

2019-07-10 19:11:37 112 0

原创 主题关键词提取

1、TF-IDF import jieba.analyse jieba.analyse.extract_tags? 数据的读取 import pandas as pd df_news=pd.read_table(r'C:\Users\CDAer\Desktop\data\car.t...

2019-07-10 19:11:04 404 0

原创 文本分类

语料的读取与处理 import pandas as pd df_news=pd.read_table(r'C:\Users\CDAer\Desktop\data\car.txt', names=['category',&...

2019-07-10 19:10:32 35 0

原创 word2vec

1、语料的预处理 novel=open('C:\\Users\\CDAer\\Desktop\\西游记.txt',mode='r',encoding='gb18030') content=novel.read() import jieb...

2019-07-10 19:08:50 586 0

原创 SnowNlp

from snownlp import SnowNLP text='质量还行吧!领的优惠劵买的,就是觉得挺划算的才买的,想再买一件没优惠劵了!如果是女生穿个子不是特别高买了肯定会觉得大了,他们家的款就是适合男生穿的,女生穿大部分人觉得长了,袖子也长的,这个价钱挺值得!' s...

2019-07-10 19:06:34 55 0

原创 chapter11(sklearn)

第十一 讲 使用神经网络进行客户流失预警 from sklearn.neural_network import MLPClassifier %matplotlib inline import os import numpy as np from scipy import stats import ...

2019-07-10 18:53:32 24 0

原创 chapter11 (pybrain)

第十一 讲 使用神经网络进行客户流失预警 %matplotlib inline import os import numpy as np from scipy import stats import pandas as pd import sklearn.cross_validation as c...

2019-07-10 17:28:12 53 0

原创 高级分类器:支持向量机( SVM)与凸优化

高级分类器:支持向量机( SVM)与凸优化 例题1: import numpy as np import matplotlib.pyplot as plt from sklearn import svm x1 = [0, 1, 0, 1]; x2 = [0, 0, 1, 1]; y = [1, ...

2019-07-10 16:55:26 229 0

原创 Ensemble-methods

Ensemble methods %matplotlib inline import matplotlib.pyplot as plt import pandas as pd import numpy as np import os # os.chdir('Q:/data'...

2019-07-10 16:54:29 57 0

原创 决策树

决策树 %matplotlib inline import os import numpy as np import pandas as pd import matplotlib.pyplot as plt # os.chdir('E:/data') accepts = ...

2019-07-10 16:53:48 29 0

原创 最近领域与朴素贝叶斯

KNN 字段 含义 income 收入 attractive 吸引力 assets 资产 edueduclass 教育程度 dated 是否约会成功 income_rank 收入等级 attractive_rank 吸引力等级 assets_rank 资...

2019-07-10 16:53:15 35 0

原创 Feature-engineering

Preprocessing %matplotlib inline import pandas as pd pd.set_option('display.max_columns', 10) raw = pd.read_csv('telecom_bill.csv&#...

2019-07-10 16:47:32 57 0

原创 Course_clustering_model

|字段|含义|类型| |:–

2019-07-10 16:45:55 42 0

原创 pyspark-association_rule

读取数据Transactions.csv,包含三个字段: 发票号(或购物小票编号) 顺序号 所购物品名称 sc <pyspark.context.SparkContext at 0x7f096a1cf890> text = sc.textFile('hdfs://19...

2019-07-10 16:42:40 37 0

原创 movie_recommendation_spark1

mllib建立推荐模型 数据准备 数据包含在ml-100k的文件夹中,文件夹中比较重要的几个文件是u.user(用户属性数据集)、u.item(电影元数据)和u.data(用户对电影的评分数据) (1)u.user数据的每列分别代表用户ID、年龄、性别、职业、邮政编码,其分隔符为“|”; (2)...

2019-07-10 16:41:38 158 0

提示
确定要删除当前文章?
取消 删除