自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

BUPT-WT的博客

随手写写,与大家共同进步

原创 《程序员代码面试指南第二版》Python实现(个人读书笔记)

说明 最近在读左神的书---《程序员代码面试指南-IT名企算法与数据结构题目最优解(第二版)》以及看了一些左神的基础、进阶、高频等视频课程,为了记录自己的学习成果,并且方便以后查看,将自己的想法与使用python实现的代码记录在此博客。 视频 基础 时间复杂度 ...

2019-06-30 08:18:50

阅读数 665

评论数 0

原创 Leetcode-一篇帖子就够啦

# 注:下面按照算法类别由浅入深,把下面罗列的这些题刷完,并且多看这些题不同的解法(国际版mostvotes),看懂之后估计就不会有太大的问题啦~ 整体框架 数据结构: 一维: 基础: 数组array(string),链表linked list ...

2020-01-31 19:53:36

阅读数 25

评论数 0

原创 NLP-基础知识-007(机器学习-朴素贝叶斯)

举个例子: 邮件是否是垃圾邮件 垃圾邮件里经常出现“广告”,“购买”,“产品”这些单词。 也就是 p(“广告”| 垃圾) > p(“广告”| 正常),P(“购买”| 垃圾) > p(“购买”| 正常) …. 这些概率怎么计算? 假设: 每个邮件包含10个单词 正常邮件24个 =&...

2019-12-06 21:13:32

阅读数 38

评论数 0

原创 NLP-基础知识-006(机器学习)

一、定义: 自动从已有的数据里找出一些规律,然后把学到的这些规律应用到对未来数据的预测中,或者在不确定环境下自动地做一些决策 二、机器学习分类 监督模型 非监督模型 生成模型 朴素贝叶斯(Naive Bayes) HMM、LDA...

2019-12-06 19:12:13

阅读数 29

评论数 0

原创 spark计算TF-IDF值(中文)

背景: 挖掘重要的关键词 问题:数据量较大(百万量级),单机版的python虽然处理起来简单,但是时间较长,内存是否溢出还不好说(看机器性能) 解决方案: spark 分布式处理 原始数据: 一个txt文件,文件格式每一行都是去停用词、分词之后的句子 代码如下: import org.a...

2019-12-05 21:22:09

阅读数 45

评论数 0

原创 NLP-基础知识-005(专家系统)

学习的两个分支: 1、专家系统(也称-符号主义、俗称规则) if: elif:... else .... 查看数据量: 1) 没有数据或者数据量比较少的情况下更适合规则 2) 如果有大量的数据 => 基于概率的解决方案 ...

2019-12-03 21:51:38

阅读数 31

评论数 0

原创 NLP-基础知识-004(生成模型)

使用语言模型生成句子(语言模型-生成模型) 生成新的数据-图片、音乐、文本... Unigram Model [NLP,I,Like,studying,course,yesterday] = Vocab [0.1,0.3,0.2,0.3,0.35,0.05] 不考虑上下文,可能生成下...

2019-12-03 20:25:25

阅读数 43

评论数 0

原创 NLP-基础知识-003(词性标注)

目标:词性标注 s = w1w2w3......wn 单词 z = (z1z2......zn) 词性 目的:argmax p(z|s) -> Noisy Channel Model = argmax p(s|z) p(z) p(s|z) - Translation Mod...

2019-12-01 15:20:35

阅读数 27

评论数 0

原创 NLP-基础知识-002 (语言模型)

一、Noisy Channel Model p(text|source) = k * p(source|text)P(text) ----> Noisy Channel Model 主要通过贝叶斯定理: p(text|source) = p(source|text)*p(text)...

2019-12-01 09:55:38

阅读数 37

评论数 1

原创 NLP-基础知识-001

一、文本分析流程 Pipeline 原始文本(网页文本、新闻、...) -> 分词(中文、英文) -> 清洗(无用的标签 !¥ 停用词.....) -> 标准化(英文时态等) -> 特征提取(tf-idf、word2vec) -> 建模(分类算法、相似度算法) -...

2019-11-30 10:54:56

阅读数 21

评论数 0

转载 Ubuntu18.04下安装MySQL

提示:以下操作均在root权限下进行。 # 查看有没有安装MySQL: dpkg -l | grep mysql # 安装MySQL: apt install mysql-server 安装完成之后可以使用如下命令来检查是否安装成功: netstat -tap | grep mys...

2019-11-15 10:00:59

阅读数 14

评论数 0

原创 ubuntu 运行python subprocess 出现/bin/sh: 1: source: not found 错误

错误: /bin/sh: 1: source: not found 运行ls -l /bin/sh后显示/bin/sh -> dash 解决方案: 1、sudodpkg-reconfigure dash 2、在出现界面选择no 3、再运行ls -l /bin/sh后显示/bin...

2019-11-14 14:36:06

阅读数 64

评论数 0

原创 知识图谱学习笔记-PageRank

一、PageRank的基本思想 起源于网页排名,如果有很多网页(T)都有指向一个网页(A)的链接,说明网页(A)比较重要,如果没有网页指向网页(A),那么A就是孤零零的存在 二、PageRank算法的原理-基本概念 1、出链:网页A可以跳转到网页B, 说明网页A出链网页B 2、入链:由A入...

2019-10-18 09:30:24

阅读数 79

评论数 0

原创 知识图谱学习笔记-图操作

一、自定义图 import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.graphx.{Edge, VertexId} import org.apache.spark.rdd.RDD import org...

2019-10-09 09:05:17

阅读数 26

评论数 0

原创 scala外部传入时间参数-亲测有效

def main(args: Array[String]): Unit = { val day = args(0) acquire_xxxxxx(day) } 运行jar包 which spark-submit --master yarn-cluster --...

2019-09-26 15:35:32

阅读数 68

评论数 0

原创 bash文件外传入参数

[root@work shell_example]# cat params.sh #!/bin/bash #传参测试脚本 echo "My name is `basename $0` -I was called as $0" echo "My first parame...

2019-09-26 15:06:00

阅读数 119

评论数 0

原创 知识图谱学习笔记-风控知识图谱设计

一、知识图谱搭建流程 问题定义-》数据收集-》数据预处理-》设计知识图谱-》存储知识图谱-》应用知识图谱-》评估系统 二、知识图谱设计原则 1)需要哪些实体、关系、属性? 2)哪些属性可以作为实体,哪些实体可以作为属性? 3)那些信息不需要放在知识图谱? 三、业务原则(Busin...

2019-09-24 19:15:23

阅读数 88

评论数 0

原创 知识图谱学习笔记-命名实体识别

一、命名实体识别简单概要 按照类型标记每一个名词:对句子名词进行分类 我今天(时间)要去北京(地点)参加面试 张三(人名)出生于上海(地名),清华大学(组织)毕业后去百度(组织)任职。 命名实体识别:1、构建知识图谱 2、聊天机器人 如:聊天机器人 机器人:先生,请问有什么可以帮到您的...

2019-09-18 08:44:47

阅读数 181

评论数 0

原创 知识图谱学习笔记-非结构化数据处理

非结构话数据到知识图谱 非结构数据-> 信息抽取(命名实体识别、关系抽取)-> 图谱构建(实体消歧、链接预测)-> 图分析算法 一、文本分析关键技术 拼写纠错 分词 词干提取 词的过滤 文本的表示 文本相似度 词向量 句子向量 实体命名识别 二、拼写纠错 ...

2019-09-15 14:00:04

阅读数 621

评论数 0

原创 知识图谱学习笔记-风控算法介绍

一、风控算法的评估 1、搭建风控模型 数据(KG)-特征工程-模型 特征工程: 申请人相关特征:年龄、收入、工作性质等等 从知识图谱提取出的特征: 1)从规则提取出来的特征:申请人是不是第一次借款(0 or 1) 申请人的朋友之前有没有逾期过(0 or 1) 2)...

2019-09-13 16:31:54

阅读数 95

评论数 0

原创 知识图谱学习笔记-Cypher语句使用

一、Cypher Neo4j的SQL match 相当于SQL select match (node)-[relationship]->(node) where (node | relationship) return (node | relations...

2019-09-13 14:05:41

阅读数 65

评论数 0

原创 知识图谱学习笔记-知识图谱介绍

一、什么是知识图谱? 解释1: 知识图谱本质上是语义网络 (本体论是语义网落的重要因素) 解释2: 知识图谱也叫做多关系图,由多种类型的节点和多种类型的边组成 构建知识图谱系统中所涉及到的技术 数据获取:数据爬虫、数据库读取 数据预处理:数据清洗、知识抽取、信息抽取、消歧分析等 导...

2019-09-13 11:07:09

阅读数 86

评论数 0

原创 风控模型学习笔记

# encoding = 'utf-8' # Produced By wt import pandas as pd from sklearn.metrics import roc_auc_score,roc_curve,auc from sklearn.model_selec...

2019-09-11 10:05:31

阅读数 46

评论数 0

原创 风控特征学习笔记

总体业务建模流程: 1、将业务抽象为分类or回归问题 2、定义标签,得到y 3、选取合适的样本,并匹配出全部的信息作为特征的来源 4、特征工程 + 模型训练 + 模型评价与调优(相互之间可能会有交互) 5、输出模型报告 6、上线与监控 什么是特征? 在机器学习的背景下,特征...

2019-09-04 11:34:45

阅读数 96

评论数 0

原创 Leetcode - 695. Max Area of Island (DFS)

Given a non-empty 2D arraygridof 0's and 1's, anislandis a group of1's (representing land) connected 4-directionally (horizontal or ve...

2019-08-24 08:51:39

阅读数 78

评论数 0

原创 Leetcode - 583. Delete Operation for Two Strings (字符串编辑)

Given two wordsword1andword2, find the minimum number of steps required to makeword1andword2the same, where in each step you can delete one character...

2019-08-24 08:51:31

阅读数 51

评论数 0

原创 Leetcode - 416. Partition Equal Subset Sum (0-1背包)

Given anon-emptyarray containingonly positive integers, find if the array can be partitioned into two subsets such that the sum of elements in both s...

2019-08-24 08:51:24

阅读数 57

评论数 0

原创 Leetcode - 343. Integer Break (分割整数)

Given a positive integern, break it into the sum ofat leasttwo positive integers and maximize the product of those integers. Return the maximum produ...

2019-08-24 08:51:18

阅读数 44

评论数 0

原创 Leetcode - 309. Best Time to Buy and Sell Stock with Cooldown (股票交易)

Say you have an array for which theithelement is the price of a given stock on dayi. Design an algorithm to find the maximum profit. You may complet...

2019-08-22 09:28:36

阅读数 29

评论数 0

原创 Leetcode - 303. Range Sum Query - Immutable (数组区间)

Given an integer arraynums, find the sum of the elements between indicesiandj(i≤j), inclusive. Example: Given nums = [-2, 0, 3, -5, 2, -1] sumRan...

2019-08-22 09:11:55

阅读数 15

评论数 0

原创 Leetcode - 279. Perfect Squares (BFS)

Given a positive integern, find the least number of perfect square numbers (for example,1, 4, 9, 16, ...) which sum ton. Example 1: Input: n = 12 ...

2019-08-22 08:57:43

阅读数 20

评论数 0

原创 Leetcode - 70. Climbing Stairs (斐波那契额数列)

You are climbing a stair case. It takesnsteps to reach to the top. Each time you can either climb 1 or 2 steps. In how many distinct ways can you cl...

2019-08-22 08:31:52

阅读数 12

评论数 0

原创 Leetcode - 64. Minimum Path Sum (矩阵路径)

Given amxngrid filled with non-negative numbers, find a path from top left to bottom right whichminimizesthe sum of all numbers along its path. Note...

2019-08-22 08:24:19

阅读数 18

评论数 0

原创 Leetcode - 513. Find Bottom Left Tree Value  (层次遍历)

Given a binary tree, find the leftmost value in the last row of the tree. Example 1: Input: 2 / \ 1 3 Output: 1 Example 2: Inpu...

2019-08-22 07:48:53

阅读数 14

评论数 0

原创 Leetcode - 230. Kth Smallest Element in a BST (BST)

Given a binary search tree, write a functionkthSmallestto find thekth smallest element in it. Note: You may assume k is always valid, 1 ≤ k ≤ BST�...

2019-08-22 07:48:45

阅读数 33

评论数 0

原创 Leetcode - 208. Implement Trie (Prefix Tree) (Trie)

Implement a trie withinsert,search, andstartsWithmethods. Example: Trie trie = new Trie(); trie.insert("apple"); trie.search("appl...

2019-08-22 07:48:34

阅读数 22

评论数 0

原创 Leetcode - 144. Binary Tree Preorder Traversal (层次遍历)

Given a binary tree, return thepreordertraversal of its nodes' values. Example: Input:[1,null,2,3] 1 \ 2 / 3 Output:[1,2,...

2019-08-22 07:48:18

阅读数 13

评论数 0

原创 Leetcode - 110. Balanced Binary Tree(递归)

Given a binary tree, determine if it is height-balanced. For this problem, a height-balanced binary tree is defined as: a binary tree in which the...

2019-08-22 07:47:58

阅读数 11

评论数 0

原创 Leetcode - 169. Majority Element (多数投票问题)

Given an array of sizen, find the majority element. The majority element is the element that appearsmore than⌊ n/2 ⌋times. You may assume that the a...

2019-08-21 19:48:35

阅读数 19

评论数 0

原创 Leetcode - 462. Minimum Moves to Equal Array Elements II (相遇问题)

Given anon-emptyinteger array, find the minimum number of moves required to make all array elements equal, where a move is incrementing a selected el...

2019-08-21 19:35:01

阅读数 9

评论数 0

提示
确定要删除当前文章?
取消 删除