- 博客(145)
- 资源 (29)
- 收藏
- 关注
原创 LeetCode------21.合并两个有序链表
Java版:package tencent;/** * 将两个有序链表合并为一个新的有序链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。 * * 示例: * * 输入:1->2->4, 1->3->4 输出:1->1->2->3->4->4 * * 来源:力扣(LeetCode) 链接:https:/...
2020-02-10 11:28:26 412
原创 LeetCode------回文数
Java版一:package tencent;/** * 判断一个整数是否是回文数。回文数是指正序(从左向右)和倒序(从右向左)读都是一样的整数。 * * 示例 1: * * 输入: 121 输出: true 示例2: * * 输入: -121 输出: false 解释: 从左向右读, 为 -121 。 从右向左读, 为 121- 。因此它不是一个回文数。 示例 3...
2020-02-10 11:07:57 367
原创 LeetCode------反转字符串
Java版一:package tencent;/** * 编写一个函数,其作用是将输入的字符串反转过来。输入字符串以字符数组 char[] 的形式给出。 * * 不要给另外的数组分配额外的空间,你必须原地修改输入数组、使用 O(1) 的额外空间解决这一问题。 * * 你可以假设数组中的所有字符都是 ASCII 码表中的可打印字符。 * * * * 示例 1:...
2020-02-09 22:25:24 371
原创 LeetCode------整数拆分
Java版一:package tencent;/** * 给定一个正整数n,将其拆分为至少两个正整数的和,并使这些整数的乘积最大化。 返回你可以获得的最大乘积。 * * 示例 1: * * 输入: 2 输出: 1 解释: 2 = 1 + 1, 1 × 1 = 1。 示例2: * * 输入: 10 输出: 36 解释: 10 = 3 + 3 + 4, 3 ×3 ×...
2020-02-09 19:21:41 331
原创 LeetCode------寻找两个有序数组的中位数
Java版一:package tencent;/** * 给定两个大小为 m 和 n 的有序数组nums1 和nums2。 * * 请你找出这两个有序数组的中位数,并且要求算法的时间复杂度为O(log(m + n))。 * * 你可以假设nums1和nums2不会同时为空。 * * 示例 1: * * nums1 = [1, 3] nums2 = ...
2020-02-09 16:39:44 175
原创 LeetCode------无重复字符的最长子串
Java版一package tencent;import java.util.HashSet;import java.util.Set;/** * 给定一个字符串,请你找出其中不含有重复字符的最长子串的长度。 示例1: 输入: "abcabcbb" 输出: 3 解释: 因为无重复字符的最长子串是 "abc",所以其长度为 3。 示例 2: 输入: "bb...
2020-02-09 15:23:34 147
原创 LeetCode------两数之和
Java版一:package tencent;/** * 给定一个整数数组 nums和一个目标值 target,请你在该数组中找出和为目标值的那两个整数,并返回他们的数组下标。 你可以假设每种输入只会对应一个答案。但是,你不能重复利用这个数组中同样的元素。 示例: 给定 nums = [2, 7, 11, 15], target = 9 因为 nums[0] + nums...
2020-02-09 11:26:07 144
转载 微表情识别
表情识别2019.12更新了仓库依赖。简介使用卷积神经网络构建整个系统,在尝试了Gabor、LBP等传统人脸特征提取方式基础上,深度模型效果显著。在FER2013、JAFFE和CK+三个表情识别数据集上进行模型评估。环境部署基于Python3和Keras2(TensorFlow后端),具体依赖安装如下(推荐使用conda或者venv虚拟环境)git clone http...
2020-01-05 15:43:09 5366 4
原创 什么是SVM
一、什么是SVMSVM主要针对小样本数据进行学习、分类和预测(有时也叫回归)的一种方法,有很好的泛化能力二、SVM原理举个例子:好吧,故事是这样子的:在很久以前的情人节,大侠要去救他的爱人,但魔鬼和他玩了一个游戏。魔鬼在桌子上似乎有规律放了两种颜色的球,说:“你用一根棍分开它们?要求:尽量在放更多球之后,仍然适用。”增加难度然后,在SVM 工...
2020-01-02 21:58:23 3765
原创 机器学习快速入门
1、课程介绍学习前提 对微积分,线性代数,概率论的基本知识有一定了解 有一定编程基础(最好是Python) 学习目标 理解机器学习的概念、原理、常用算法 学会对原始数据的预处理 学会使用Python语言和相关的机器学习库 学会使用常用算法和应用框架解决实际问题 课程安排 基本介绍 基本概念 监督学习 非监督学习 2、机器学习概念...
2019-11-23 17:35:58 2194
原创 python半小时快速上手
机器学习算法day01_python快速上手课程大纲 Python快速上手 Python简介 Python集成开发环境 Python基本语法 Python的变量和集合 Python流程控制语法 Python函数 Python模块 ...
2019-11-23 17:08:22 754
原创 第三阶段:数据存储与计算(离线场景):3.4 数据采集flume
概要Apache Flume 是一个分布式,可靠且可用的系统,用于有效地从许多不同的源收集、聚合和移动大量日志数据到一个集中式的数据存储区。Flume 的使用不只限于日志数据。因为数据源可以定制,flume 可以被用来传输大量事件数据,这些数据不仅仅包括网络通讯数据、社交媒体产生的数据、电子邮件信息等等。Apache Flume 是 Apache 基金会的顶级项目,在加...
2019-11-23 16:51:35 414 1
原创 第三阶段:数据存储与计算(离线场景):3.3 数据存储alluxio(1T)
Alluxio概览什么是 Alluxio 优势 技术创新 快速上手指南 下载和有用资源什么是 AlluxioAlluxio 是世界上第一个面向基于云的数据分析和人工智能的开源的数据编排技术。 它为数据驱动型应用和存储系统构建了桥梁, 将数据从存储层移动到距离数据驱动型应用更近的位置从而能够更容易被访问。 这还使得应用程序能够通过一个公共接口连接到许多存储系统。 Alluxio内存...
2019-11-12 15:12:23 436
原创 第三阶段:数据存储与计算(离线场景):3.2 数据存储hdfs
云计算云计算的看法,是忽悠?还是能带来真实价值的东西?云计算是对现有资源集中优化后,对客户提供服务,从现在的情况来看云计算真实的为大家提供了服务,比如:网盘等。至于云计算更为准确的定义为美国国家标准与技术研究院(NIST)定义:云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络,服务器,存储,应用软件,服务),这些资源能够被...
2019-11-07 09:28:31 1440
原创 第二阶段:分布式理论简介:2.4 大数据集成架构概述
一、大数据的发展史2004年Google前后发表三篇论文,也就是传说中的“三驾马车”分页式文件系统GFS 大数据分布式计算框架MapReduce NoSQL数据库系统BigTable2006年Doug Cutting启动了一个赫赫有名的项目Hadoop,主要包括Hadoop分布式文件系统HDFS和大数据计算引擎MapReduce,分别实现了GFS和MapReduce其中两篇论...
2019-11-06 17:01:39 699
原创 第二阶段:分布式理论简介:2.3 一致性、2PC和3PC
1一致性1.1 简述一致性,是指对每个节点一个数据的更新,整个集群都知道更新,并且是一致的假设一个具有N个节点的分布式系统,当其满足以下条件时,我们说这个系统满足一致性:全认同: 所有N个节点都认同一个结果 值合法: 该结果必须由N个节点中的过半节点提出 可结束: 决议过程在一定时间内结束,不会无休止地进行下去1.2 面临着的问题消息传递异步无序: 现实网络不是一个可...
2019-11-06 16:37:59 431
原创 第二阶段:分布式理论简介:2.2数据分布方式
1、数据分布方式1)哈希方式:按照数据的某一特征计算哈希值,并将哈希值与机器中的机器建立映射关系,从而将不同哈希值的数据分布到不同的机器上。特征就是key-value中的key,也可以是其他与应用业务逻辑相关的值。2)按数据范围分布:将数据按照特征值的值域范围划分不同的区间,使得集群中每台服务器处理不同区间的数据。3)按数据量分布:与具体的数据特征无关,将数据视为一...
2019-11-06 15:16:29 170
原创 第二阶段:分布式理论简介:2.1 CAP理论介绍
CAP原则CAP原则又称CAP定理,指的是在分布式系统的设计中,没有一种设计可以同时满足 Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性)3个特性,这三者不可得兼。It states, that though its desirable to have Consistency, High-Availability a...
2019-11-06 15:09:51 215
转载 数据分析思维五大误区
很多同学在问:数据分析有没有标准思路,有没有分析思维模式。答案当然是:有。但绝不是大家日常在公众号看到的各种炫酷名字。什么SOWT,PEST,二八法、切割法、多维法、业务法……这些名字炫酷有余,可解决真实商业问题的时候没一个靠谱的。今天我们正本清源,一次性跟大家解释清楚:哪些数据思维的常见误区。误区一:数据分析思维是4P,4C,SWOT,PEST,五力模型……澄清:这些太过宏观,完全...
2019-09-29 17:57:55 616 1
原创 Java基础(三)
什么是数据结构:数据结构是计算机存储、组织数据的方式。数据结构是指相互之间存在一种或多种特定关系的数据元素的集合。通常情况下,精心选择的数据结构可以带来更高的运行或者存储效率。数据结构往往同高效的检索算法和索引技术有关。常见的数据结构数组,栈,链表,哈希表,队列,堆,图,树Java中集合框架其实就是数据结构的实现的封装,今天是我们自己从头来模拟和实...
2019-08-02 10:32:54 179
原创 Java基础(二)
一、件生命周期:软件生命周期: 软件的产生直到报废的整个过程.软件生命周期内有:问题定义, 可行性分析, 总体描述, 系统设计,编码, 调试和测试, 验收与运行, 维护升级到废弃等阶段--------------------------------------------------------------------------------------1):问题的定义及规划: 此...
2019-08-02 10:28:37 387
原创 Java基础(一)
计算机语言与编程概述什么是计算机语言?生活中的两个人的交流主要是方式无非是采用一种都能够识别的语言,那么也就是说该语言是他们之间传递信息的媒介计算机语言是指用于人与计算机之间通讯的一种特殊语言,是人与计算机之间传递信息的媒介。那计算机怎么能读懂我们给它发出的的信息呢?此时就需要编写一套由字符、数字所组成并按照某种语法格式的一串串计算机指令,而这些计算机指令就是计算机语言。...
2019-08-02 10:22:38 255
原创 离网用户预警
主要功能的帮助文档:matplotlibseabornpandasscikit-learn读取数据pandas可以读取文本文件、json、数据库、Excel等文件使用read_csv方法读取以逗号分隔的文本文件作为DataFramehead、tail等方法可以浏览部分数据集,可使用dtypes方法查看各列数据类型,通过astype方法修改数据类型import panda...
2019-07-10 19:15:34 770 1
原创 词云分析
import pandas as pddf_news=pd.read_table(r'C:\Users\CDAer\Desktop\data\car.txt', names=['category','theme','url','content'])df_news.head(3)df_news.shapedf_news['category'].val...
2019-07-10 19:12:57 880
原创 分词
1、最大正向匹配的分词#定义的分词def getSeg(text,wd_dict): if not text: return '' if len(text)==1: return text if text in wd_dict: return text else: new_lenth=len(tex...
2019-07-10 19:12:20 515
原创 自定义情感分析
import jiebaimport numpy as npdef judgeodd(num): if (num % 2) == 0: return 'even' else: return 'odd' path='C:/Users/CDA/Desktop/data/'#打开词典文件,返回列表def open_dict(Dict =...
2019-07-10 19:11:37 339
原创 主题关键词提取
1、TF-IDFimport jieba.analysejieba.analyse.extract_tags?数据的读取import pandas as pddf_news=pd.read_table(r'C:\Users\CDAer\Desktop\data\car.txt', names=['category','theme','url',...
2019-07-10 19:11:04 2344
原创 文本分类
语料的读取与处理import pandas as pddf_news=pd.read_table(r'C:\Users\CDAer\Desktop\data\car.txt', names=['category','theme','url','content'])import jieba#提取新闻的内容,并将其转变成列表content_list=d...
2019-07-10 19:10:32 145
原创 word2vec
1、语料的预处理novel=open('C:\\Users\\CDAer\\Desktop\\西游记.txt',mode='r',encoding='gb18030')content=novel.read()import jiebacutword=jieba.lcut(content,cut_all=False,HMM=True)Building prefix dict from ...
2019-07-10 19:08:50 1614
原创 SnowNlp
from snownlp import SnowNLPtext='质量还行吧!领的优惠劵买的,就是觉得挺划算的才买的,想再买一件没优惠劵了!如果是女生穿个子不是特别高买了肯定会觉得大了,他们家的款就是适合男生穿的,女生穿大部分人觉得长了,袖子也长的,这个价钱挺值得!'s=SnowNLP(text)for i in s.sentences: sco=SnowNLP(i) ...
2019-07-10 19:06:34 482
原创 chapter11(sklearn)
第十一 讲 使用神经网络进行客户流失预警from sklearn.neural_network import MLPClassifier%matplotlib inlineimport osimport numpy as npfrom scipy import statsimport pandas as pdimport sklearn.cross_validation as cro...
2019-07-10 18:53:32 148
原创 chapter11 (pybrain)
第十一 讲 使用神经网络进行客户流失预警%matplotlib inlineimport osimport numpy as npfrom scipy import statsimport pandas as pdimport sklearn.cross_validation as cross_validationimport statsmodels.api as smimport...
2019-07-10 17:28:12 178
原创 高级分类器:支持向量机( SVM)与凸优化
高级分类器:支持向量机( SVM)与凸优化例题1:import numpy as npimport matplotlib.pyplot as pltfrom sklearn import svmx1 = [0, 1, 0, 1]; x2 = [0, 0, 1, 1]; y = [1, 1, 0, 0]model1 = svm.SVC(kernel='linear').fit(list...
2019-07-10 16:55:26 617
原创 Ensemble-methods
Ensemble methods%matplotlib inlineimport matplotlib.pyplot as pltimport pandas as pdimport numpy as npimport os# os.chdir('Q:/data')churn = pd.read_csv('telecom_churn.csv')churn.head()...
2019-07-10 16:54:29 275
原创 决策树
决策树%matplotlib inlineimport osimport numpy as npimport pandas as pdimport matplotlib.pyplot as plt# os.chdir('E:/data')accepts = pd.read_csv('accepts.csv', skipinitialspace=True)accepts = a...
2019-07-10 16:53:48 283
原创 最近领域与朴素贝叶斯
KNN字段含义income收入attractive吸引力assets资产edueduclass教育程度dated是否约会成功income_rank收入等级attractive_rank吸引力等级assets_rank资产等级加载数据集import pandas as pdimport os# os.c...
2019-07-10 16:53:15 210
原创 Feature-engineering
Preprocessing%matplotlib inlineimport pandas as pdpd.set_option('display.max_columns', 10)raw = pd.read_csv('telecom_bill.csv')raw.head() ID churn join_tim...
2019-07-10 16:47:32 418 1
原创 pyspark-association_rule
读取数据Transactions.csv,包含三个字段:发票号(或购物小票编号)顺序号所购物品名称sc<pyspark.context.SparkContext at 0x7f096a1cf890>text = sc.textFile('hdfs://192.168.142.128:9000/Transactions.csv')text.take(5)[u'O...
2019-07-10 16:42:40 265
原创 movie_recommendation_spark1
mllib建立推荐模型数据准备数据包含在ml-100k的文件夹中,文件夹中比较重要的几个文件是u.user(用户属性数据集)、u.item(电影元数据)和u.data(用户对电影的评分数据)(1)u.user数据的每列分别代表用户ID、年龄、性别、职业、邮政编码,其分隔符为“|”;(2)u.item数据包含的列为电影ID、电影名、上映日期及其它一些属性信息,分隔符也为“|”;(3)u....
2019-07-10 16:41:38 2487
ExpressionRecognition-master.rar
2020-01-05
博客中案例资源SVM.tar
2020-01-02
Weather.zip
2019-06-27
KungFuPanda.zip
2019-06-27
MapReduce基于物品的协同过滤算法实现电影推荐系统
2019-04-23
用户在基站停留信息日志文件
2019-03-12
移动运营商日志文件
2019-03-12
hadoop-2.6.4.tar.gz
2018-05-17
hadoop-2.8.2-src.tar.gz
2018-05-17
apache-hive-2.3.2-src.tar.gz
2018-05-17
hbase-1.3.1-bin.tar.gz
2018-05-17
千锋大数据程序开发周末班教学大纲(20170823更新)
2018-05-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人