自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(39)
  • 收藏
  • 关注

翻译 写給博士低年级同学的建议

转载翻译自:http://www.pgbovine.net/early-stage-PhD-advice.htm# 每周读一遍激励自己 #1.对PHD阶段所要面临的挑战做足心理准备。Ph.D.-level research will be much more difficult than undergraduate research both in terms of the techn...

2019-01-16 11:13:42 240

转载 Data Science求职建议

转载自:https://towardsdatascience.com/how-to-build-a-data-science-portfolio-5f566517c79c1. 如何才能找到一份关于 Data Science 的工作?Required skills: statistics, machine learning, programming ... Having a portfol...

2019-01-11 21:55:55 687

原创 【python数据结构】DFS

【代码】【python数据结构】DFS。

2023-10-30 10:15:18 101

原创 运筹优化知识点复习

1、无约束优化问题、等式约束优化问题、包含不等式约束的优化问题,拉格朗日乘子法、KKT条件https://blog.csdn.net/Mr_KkTian/article/details/537504242、

2020-08-01 10:48:05 404

原创 计算机基础知识

总结了一些计算机基础知识讲解清晰地文章,不定期更新1、Http和Https的区别https://mp.weixin.qq.com/s/elwCcD-DO2jq4393l9sf3Qhttps://juejin.im/post/5d53aa04f265da03934bd70c2、UDP、TCP的区别,三次握手、四次挥手https://juejin.im/post/5c6fbf54f265da2db718216a#heading-1...

2020-07-30 16:03:47 287

原创 【python数据结构】快速幂&矩阵快速幂&应用

import numpy as npclass Solution: def mat_pow(self, A, n): m = A.shape[0] B = np.eye(m, dtype=np.int64) while n > 0: if (n & 1): B = np.mod(np.matmul(B,A), self.p).asty...

2020-07-30 00:03:17 888

原创 【python数据结构】二分图、拓扑排序、并查集

1.判断是否为二分图【leetcode785】如果可以用两种颜色对图中的节点进行着色,并且保证相邻的节点颜色不同,那么这个图就是二分图。class Solution: def isBipartite(self, graph: List[List[int]]) -> bool: color = {} for node in range(len(graph)): if node not in color:

2020-07-21 16:15:27 314

原创 【python数据结构】栈&队列专题练习--选题来自Github大神CyC2018

按照CyC2018 (Github star 超过99k, 详情请见https://github.com/CyC2018/CS-Notes/blob/master/notes/Leetcode%20%E9%A2%98%E8%A7%A3%20-%20%E6%A0%88%E5%92%8C%E9%98%9F%E5%88%97.md)总结的练习【python版】。废话不多说,上菜~ 1.用栈实现队列【leecode232】 元素每经过一个栈,出栈的顺序就会被反转,因此连续经过两个栈,就可达到队列先进先

2020-07-21 15:36:35 493

原创 【python数据结构】链表专题练习--选题来自Github大神CyC2018

按照Cyc2018 (Github star 超过99k, 详情请见https://github.com/CyC2018/CS-Notes/blob/master/notes/Leetcode%20%E9%A2%98%E8%A7%A3%20-%20%E9%93%BE%E8%A1%A8.md)总结的十道练习【python版】。废话不多说,上菜~1. 找出两个链表的交点【leecode160】...

2020-04-29 20:16:38 454

原创 【python数据结构】二叉树重构

相似问题集合:1.从前序与中序遍历序列构造二叉树leetcode1052.从中序与后序遍历序列构造二叉树leetcode106解决套路:根据给定的前/中/后需遍历序列,确定root,left,right的位置,然后递归解决。# Definition for a binary tree node.# class TreeNode:# def __init__(s...

2020-04-27 20:41:42 218

原创 【python数据结构】DFS & BFS 学习资料+经典例题

1.BFS:https://blog.csdn.net/raphealguo/article/details/75234112.DFS:https://blog.csdn.net/raphealguo/article/details/7560918

2020-04-24 17:45:22 660

原创 【python数据结构】链表翻转问题合集

链表翻转链表两两翻转链表k个一组翻转

2020-04-17 23:52:07 185

原创 【NLP】ELMo理解

CBOW,SkipGram,NNLM等模型训练出来的词向量是Fixed,无法满足同一个单词在不同语境下具有不同的含义。

2020-03-17 18:20:52 129

原创 算法面试知识点小结

1. Xgboost相关知识点 a. boosting tree, Random Forest, Adaboost, GBDT, Xgboost的区别; b. Random Forest, Xgboost如何做特征选择; c. Xgboost的原理,工程上的优化细节; d. GBDT与xgboost的区别:http://wepon.me/ e. R...

2020-01-11 16:44:07 216

转载 【pyspark】性能优化小结

1.https://tech.meituan.com/2016/04/29/spark-tuning-basic.html

2020-01-11 16:42:58 830

原创 【pyspark】array_contains的用法

需要实现的操作:spark dataframe 中A列类型为StringType(), B列是ArrayType(),要判断每条记录中A列的值是否在B列中我尝试了 .isin(...) 以及 spark.sql 中 in 的一些写法都失败了,后来发现可以使用 array_contains(..., ...)。new_data1 = sqlContext.sql("SELECT *...

2019-11-26 14:25:33 3368

原创 【pyspark】py4j.protocol.Py4JJavaError问题解决

最近上线代码需要用到pyspark,一直报错:py4j.protocol.Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe.本来以为是自己的语法问题,改了半天无果。后来发现可能是jdk的版本与spark版本不兼容的问题,换了一个版本的jdk...

2019-11-06 09:48:26 7929

原创 Mac搭建Spark

1. Requirements for Mac Name Description Installation Guide Brew The package installat...

2019-11-01 14:16:45 240

转载 机器学习之类别不平衡问题 —— 采样方法

本篇介绍的采样方法是其中比较常用的方法,其主要目的是通过改变原有的不平衡样本集,以期获得一个平衡的样本分布,进而学习出合适的模型。采样方法大致可分为过采样 (oversampling) 和欠采样 (undersampling) ,虽然过采样和降采样主题思想简单,但这些年来研究出了很多变种,本篇挑一些来具体阐述。见下思维导图:♠♠过采样1. 随机...

2019-10-15 15:01:43 1616 1

原创 【SCM】基于报童模型的MAPE与Profit仿真

在销量预测中,提高预测准确率(1-MAPE)能否提高利润?本文试图通过经典的报童模型进行随机仿真,观察MAPE和利润之间的关系。一、模型设定 Newsvendor Problem -- 30 Days Purchase cost 0.7...

2019-08-29 20:10:57 840

原创 Mysql经典练习题50题

网上关于这套练习题较多使用的是比较老的mysql版本,我使用的是 Server version: 8.0.15 MySQL练习数据数据表 --1.学生表 Student(SId,Sname,Sage,Ssex)--SId 学生编号,Sname 学生姓名,Sage 出生年月,Ssex 学生性别--2.课程表 Course(CId,Cname,TId) --CId --课程编号,Cna...

2019-06-14 11:28:36 76916 65

原创 Excel打开utf-8编码的csv文件乱码

问题背景:今天发现离线解析html文件很多法语单词出现乱码问题,但是在sublime、vs code中查看时能够正常显示,意识到这是excel的问题原因分析:Excel 需要它有一个BOM头元信息来说明CSV的编码。解决方案:方案1⃣️:添加BOM头方案2⃣️:pandas中将encoding改成'utf_8_sig'# 将结果保存至文件# csv格式,编码要用ut...

2019-06-09 16:18:37 1549

原创 阿里云-机器学习PAI 准备

1.MaxCompute(原名 ODPS):阿里巴巴通用计算平台提供的一种快速、完全托管的 GB/TB/PB 级数据仓库解决方案简介:https://yq.aliyun.com/articles/149536 全套资源:https://yq.aliyun.com/articles/78108?spm=a2c4e.11153940.blogcont149536.31.3f1e4337sch3a...

2019-05-17 21:25:03 379

原创 【Python】位运算及其应用

1.机器数、真值,原码、反码、补码https://www.cnblogs.com/zhangziqiu/archive/2011/03/30/ComputerCode.html机器数:一个数在计算机中的二进制表示形式,机器数是带符号的,在计算机用一个数的最高位存放符号, 正数为0, 负数为1真值:因为第一位是符号位,所以机器数的形式值就不等于真正的数值,将带符号位的机器数对应的真正数值...

2019-05-16 10:56:43 371

原创 回溯法

leetcode46:给定一个没有重复数字的序列,返回其所有可能的全排列。class Solution: def backtrack(self, res, temp, nums): if len(temp) == len(nums): res.append(temp[:]) else: for i i...

2019-05-03 11:33:13 118

原创 【python数据结构】二叉树遍历的七种实现方式

二叉树的遍历方式:1、深度优先遍历方式1.1 前序遍历 (递归、非递归)1.2 中序遍历 (递归、非递归)1.3 后序遍历 (递归、非递归)2、宽度优先遍历方式'''树的构建: 10 6 14 4 8 12 16'''class Node(object)...

2019-04-21 23:24:55 232

原创 【Python】partition问题、荷兰国旗、经典快排、随机快排

本文主要分为三个部分: 基础partition问题 荷兰国旗问题 经典快排 & 随机快排 1、基础partition问题给定一个数组arr,和一个数num,请把小于等于num的数放在数组的左边,大于num的数放在数组的右边,要求额外空间复杂度O(1),时间复杂度O(N)# 1. 快排基础 partition思想# 给定一个数组arr,和一个数...

2019-04-17 23:57:14 549

原创 【Python】堆排序

1.大根堆 ——> 降序排列import mathimport numpy as np################## 1、大根堆排序 ######################def heapify(nums, i): l = len(nums) if l <= 1: return nums c1 = 2 * i + ...

2019-04-17 15:45:14 99

原创 【python数据结构】单链表

最近刷leetcode,关于链表的题都很生疏,决定认认真真自己实现一遍。#1. 定义链表的基本元素: 节点 Nodeclass Node(object): ''' data 保存节点的数据 next 保存下一个节点的对象 ''' def __init__(self, data=None, pnext=None): self.da...

2019-04-10 00:10:24 215

原创 Python的字符串操作

最近遇到的bug,记录一下。1. 有一个长度为36的字符串,我想每8个输出,不足的补0,36%8 = 4-36%8 = 4-(36%8) = -42.统计字符串里某个字符出现的次数>>> '123451'.count('1')2...

2019-04-09 21:22:05 314

原创 【机器学习算法】手撕朴素贝叶斯分类器

2019年携程笔试的时候让手写朴素贝叶斯分类器,虽然清楚原理,但是没上手实践过,在考场上就发挥得很凌乱。朴素贝叶斯原理较为简单,给定训练数据后,直接计算先验概率和条件概率(类别确定的情况下,某特征取特定值的概率),然后把新的数据分给后验概率最大的类。其中求条件概率时候,python中defaultdict数据结构可以很方便的统计各个特征的各个取值的个数,可以把dict的value初始化为0...

2019-04-09 20:35:43 303

原创 Python 进制转换

1. X进制转10进制 用 int(‘字符串’, X)# 7进制转10进制>>> int('43',7)31# 16进制转10进制>>> int('0xA',16)10# 2进制转10进制>>> int('10101010',2)1702. X进制转8进制 用oct(数字)# 10进制转8进制>&...

2019-04-06 10:14:10 254

原创 【机器学习算法】——> 损失函数

【1】 Logistic Regression 的损失函数为什么用 logloss?https://www.zhihu.com/question/47744216?from=profile_question_card【2】 SVM 的损失函数为什么用 hinge loss?https://www.zhihu.com/question/47746939...

2019-04-01 17:59:02 164

原创 【Python】排序问题小结

1、排序算法性能总结排序方法 平均时间复杂度 最差时间复杂度 最好时间复杂度 空间复杂度 稳定性 选择排序 O(n^2) O(n^2) O(n^2) O(1) 不稳定 冒泡排序 O(n^2) O(n^2) O(n) O(1) 稳定 双向冒泡排序 O(n^2) O(n^2) O...

2019-03-26 11:12:53 450

原创 【Python】归并排序极其在小和问题、逆序对问题中的应用

总结下本人目前对归并排序的理解,有不到位的地方麻烦大家批评指正。归并排序相对于暴力求解为什么能降低时间复杂度呢?假设原问题的规模为n,归并排序把原问题划分为两个规模为n/2的子问题。减少时间复杂的度的关键在于在merge两个子数组的时候,子数组是有序的。举个例子:原数组:[ 1, 4, 5, 8, 2, 3, 9, 11]子数组left: [ 1, 4, 5, 8]子数组ri...

2019-03-24 22:06:05 427

原创 Python版两数之和-leetcode1

题目描述:https://leetcode-cn.com/problems/two-sum/给定一个整数数组nums和一个目标值target,请你在该数组中找出和为目标值的那两个整数,并返回他们的数组下标。你可以假设每种输入只会对应一个答案。但是,你不能重复利用这个数组中同样的元素。示例:给定 nums = [2, 7, 11, 15], target = 9因为 ...

2019-03-18 16:41:07 257

原创 【Python】笔试题知识点小结(1)

题目来源:牛客网今天开始复习巩固一下基础知识点~蓝色表示题干,红色表示答案,黑色表示知识点。1、下列代码的运行结果是?print 'a' < 'b' < 'c' True1)python支持连续比较,'a' < 'b' < 'c' 相当于 'a' < 'b' and 'b' < 'c',本质是字符ASCII码的比较2)字符 ASCI...

2019-03-03 21:20:40 1482

原创 定位pandas指定列的重复数据

问题背景:最近需要把数据库A和数据库B的data进行merge,苦于每个数据库permnent的identifier不一样(记为a和b好了),需要建立一个link table。link table中,a和b应该是一一对应关系,但是经过统计发现出现了重复行!试了很久才发现如何定位到重复行,分享給需要的童鞋。原始iclink表形式如结果1所示,我需要ticker和permno保持一一对应关系,...

2019-01-18 00:43:45 3446

原创 Sentiment Analysis(dictionary method)

python小白第一次平安度过实验课~上学期一直在看text analysis的论文,今天上手实践了一下基于字典法的文本情感分析,因为文件编码的问题卡了好久,数据中的txt文件不是utf-8编码,在大神的指导下加了encoding = 'gbk'终于解决了,一点一点积累这些小细节的知识吧~美妆博主的梦想实现不了了还能幻想下当个程序媛博主吗?Po段代码给自己鼓鼓劲儿hhh~ ...

2018-03-09 17:18:08 1262

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除