自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 spark学习—Scala(基础部分)

Spark学习—Scala(基础部分)(一)Scala简介scala 是一种多范式编程软件,既包括函数式编程又包括面向对象式编程。什么是函数式编程?函数式编程是一种编程模型,将计算机运算看做是数学中函数的计算,并且避免了状态以及变量的概念。(对于函数式编程可以参考我的Spark学习—官方文档学习这篇文章里的代码)(二)编程实践Scala编程支持命令行的形式也可以通过idea的Scala插件...

2018-11-22 15:56:01 235

原创 传统的文本表征、词向量、关键词提取技术(one-hot、TFIDF、TextRank、LSA、PLSA、LDA )。

1.TF-TFIDFTFIDF用来衡量一个词对文档的重要性参数。通过对整个文档集进行TFIDF操作。求出每个文档的TFIDF值。 比如整个文档集中有10000个单词,计算每个文档中这10000个单词的TFIDF,将这10000个单词的TFIDF作为特征,使用统计机器学习的算法进行训练,得到模型,并进行预测。TF衡量单词在一个文本中出现的次数,IDF衡量单词在整个文档集中出现的次数。其...

2019-08-11 22:47:48 862

原创 中文分词技术

词:最小的、独立活动的、有意义的语言成分分词:将句子分成单词如:句子:南京市长江大桥分词:南京市/长江/大桥分词的方法:规则分词、统计分词、混合分词。规则分词:人工设立词库,进行匹配。统计分词:用统计机器学习算法去分词混合分词:规则分词+统计分词规则分词:词典,匹配,分词正向最大匹配(MM):逆向最大匹配(IMM):双向最大匹配(BMM)...

2019-06-10 17:11:49 232

原创 链表:3

class Solution {public ListNode mergeTwoLists(ListNode l1, ListNode l2) {if (l1 == null) {return l2;}if (l2 == null) {return l1;}if (l1.val < l2.val) {l1.next = mergeTwoLists(l1.next, l2);...

2019-06-10 10:59:06 180

原创 剑指offer:4

import java.util.ArrayList;import java.util.Stack;public class Solution {// 用栈的方式实现,先进栈,出栈进数组 public ArrayList<Integer> printListFromTailToHead(ListNode listNode) { Stack<...

2019-06-10 10:15:17 94

原创 链表:2

/**Definition for singly-linked list.public class ListNode {int val;ListNode next;ListNode(int x) { val = x; }}*/class Solution {// 使用递归的方法public ListNode reverseList(ListNode h...

2019-06-09 14:47:35 54

原创 链表:1

public class Solution { public ListNode getIntersectionNode(ListNode headA, ListNode headB) {// headA和headB是否符合条件 if (headA == null || headB == null) { return null; ...

2019-06-09 14:21:20 96

原创 剑指offer:3

public class Solution {public String replaceSpace(StringBuffer str) {// 利用字符串中的replace方法String string = str.toString();return string.replace(" ", “%20”);}}

2019-06-09 14:20:29 127

原创 剑指offer:2

public class Solution {public boolean Find(int target, int[][] array) {// 利用题目中提到的从上到下从左到右的性质int i = array.length-1;int j = 0;while (i >= 0 && j < array[0].length) {if (targ...

2019-06-09 11:34:03 102

原创 剑指offer:1

public class Solution { public boolean duplicate(int[] numbers, int length, int[] duplication) {// ​题目中提到数组中所有的元素都在0—n,说明数组的下标和数组的值存在一定的联系,利用数组的下标与元素一一对应,当不对应的时候,假设此时的下标为i,那么// 如果n...

2019-06-09 11:11:32 101

原创 特征工程之数据预处理中的缺失值处理(使用pandas和sklearn)

原则:1.缺失数据的比例2.数据的重要性方法:如果缺失的数据不重要或者缺失的很多可以直接删除。删除:1.删除所有包含缺失数据的行data=data.dropna(axis=0)2.删除所有包含缺失数据的列data=data.dropna(axis=1)3.删除缺失的某个数据列如:删除a,b列data = data.drop(['a', 'b'], axis=1)如果缺...

2019-05-27 14:04:58 971

原创 Leetcode两数平方和

class Solution { public boolean judgeSquareSum(int c) { int i = 0, j = (int) Math.sqrt(c); while (i <= j) { if (i * i + j * j == c) { return true; ...

2019-05-27 11:32:35 315

原创 Leetcode刷题—1:有序数组的 Two Sum

使用双指针class Solution {public int[] twoSum(int[] numbers, int target) {int i=0;int j=numbers.length-1;while (j>i)if (numbers[i]+numbers[j]<target){i++;}else if (numbers[i]+numbers[j]>t...

2019-05-27 11:20:18 158

原创 数据挖掘算法——关联分析算法(apriori和FPgrowth)

1.什么是关联分析?从大规模数据集中寻找物品间的隐含关系被称作关联分析(association analysis)或者关联规则学习(association rule learning)。2.关联分析中的关系频繁项集(frequent item sets)是经常出现在一块的物品的集合。用{}表示关联规则(association rules)暗示两种物品之间可能存在很强的关系。用{x} ➞ ...

2019-05-26 13:59:26 4312 2

原创 机器学习算法—线性回归

2.线性回归(regression)线性回归(Linear Regression)基于连续变量(s)的实数值估计(房屋价格,通话数量,总销售额等)。在这里,我们通过拟合一条最佳直线来建立自变量(x)和因变量(y)之间的关系。这个最佳拟合线称为回归线,用线性方程 y= a * x+b 表示。线性回归主要有两类:简单线性回归和多元线性回归。简单线性回归的特点是只有一个自变量。多元线性回归的特征是有...

2018-12-19 18:30:27 261

原创 基于决策树(Decision Tree)的bagging算法:随机森林(Random Forest)(包括具体代码)

基于bagging 的算法:重点先跑模型:数据:http://sofasofa.io/competition.php?id=1代码:1.随机森林什么是随机森林?随机森林被认为是所有数据科学问题的灵丹妙药 。有趣的是,当你想不出任何算法(无论情况如何)时,使用随机森林!随机森林是一种多功能机器学习方法,能够执行回归和分类任务。它还采用降维方法,处理缺失值,异常值和数据探索的其他基本步...

2018-12-12 21:10:48 2976 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除