自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(60)
  • 收藏
  • 关注

原创 ubuntu18.04 + 3060 安装测试

中文是"交换空间",充当ubuntu的虚拟内存,一般的大小为电脑物理内存的2倍左右,可以将其分为 64G=64*1024M=3) /:这是ubuntu 的根目录,用于安装系统和软件,相当于windows的C盘,我们将其分为 20G,好了,分区完毕,你完全可以按照上面的描述进行分区,不会有任何问题,起码我一直都是这么做的(强烈建议)。,空间起始位置,用于"ext4日志文件系统",挂载点为"/home",空间起始位置,用于"swap"或"交换空间",在唯一的一个空闲分区上添加,大小512M,

2023-05-05 16:58:30 797

原创 html,xpath合并P标签以下的内容

html,xpath合并P标签以下的内容,同时删除P标签下的span标签。

2023-04-26 09:30:54 370

原创 逻辑回归全面解析

如要分类为 A,B,C 三类,将 A,B 作为正向数据,C 作为负向数据,训练出一个分模型,再将 A,C 作为正向数据,B 作为负向数据,训练出一个分类模型,最后 B,C 作为正向数据,C 作为负向数据,训练出一个模型,通过这三个模型就能实现多分类。对于多分类问题,只有 ‘newton-cg’、‘sag’、‘saga’ 和 ‘lbfgs’ 能够处理多项损失,而 ‘liblinear’ 面对多分类问题,得先把一种类别作为一个类别,剩余的所有类别作为另外一个类别。依次类推,遍历所有类别,进行分类。

2023-03-14 17:18:02 452

原创 Supervisor

首先,介绍一下supervisor。Supervisor(http://supervisord.org)是用Python开发的一个client/server服务,是Linux/Unix系统下的一个进程管理工具,不支持Windows系统。它可以很方便的监听、启动、停止、重启一个或多个进程。用Supervisor管理的进程,当一个进程意外被杀死,supervisort监听到进程死后,会自动将它重新拉起,很方便的做到进程自动恢复的功能,不再需要自己写shell脚本来控制环境:centos7.4。

2022-11-14 17:15:34 1434

原创 分布式ID生成算法——雪花算法

雪花算法(Snowflake),是Twitter公司提出的一种分布式ID生成算法,是分布式ID问题的经典解决方案。此算法生成的是一个64bit(8字节)的ID,在Java中使用8字节的long来存放,在数据库推荐用bigint来存储。可以提前在机器ID或者序列号中留出拓展位置0,当出现时钟回拨时,将拓展位置1,这样也可以保证生成ID的唯一性。时钟回拨,就是服务器上的时间突然倒退回之前的时间,时钟回拨会导致ID不唯一的问题。有时候不同的机器上需要同步时间,可能不同的机器存在误差,也会出现时钟回拨。

2022-10-25 15:47:30 3158

原创 标签平滑(label smoothing) torch和tensorflow的实现

在常见的多分类问题中,先经过softmax处理后进行交叉熵计算,原理很简单可以将计算loss理解为,为了使得网络对测试集预测的概率分布和其真实分布接近,常用的做法是使用one-hot对真实标签进行编码,然后用预测概率去拟合one-hot的真实概率。但是这样会带来两个问题:无法保证模型的泛化能力,使网络过于自信会导致过拟合;全概率和0概率鼓励所属类别和其他类别之间的差距尽可能加大,而由梯度有界可知,这种情况很难adapt。会造成模型过于相信预测的类别。标签平滑可以缓解这个问题,可以有两个角度理解这件事

2022-05-17 16:14:27 1579

原创 python 处理table

# -*- coding: utf-8 -*-from collections import defaultdictdef table_to_list(table): dct = table_to_2d_dict(table) return list(iter_2d_dict(dct))def table_to_2d_dict(table): result = defaultdict(lambda : defaultdict(str)) for row_i, .

2022-05-06 17:16:16 1150 1

原创 torch系列之手写数字识别(实战)

识别准确率99%有问题留言。直接上代码:文件夹名称:MNIST_CNN_train文件:model_CNN.py文件:train.py文件:test.py

2021-12-02 18:38:56 1658

原创 simHash介绍及python实现

1、simHash简介simHash算法是GoogleMoses Charikear于2007年发布的一篇论文《Detecting Near-duplicates for web crawling》中提出的, 专门用来解决亿万级别的网页去重任务。simHash是局部敏感哈希(locality sensitve hash)的一种,主要思想是降维,将高维的特征向量映射成低维的特征向量,再通过比较两个特征向量的 汉明距离(Hamming Distance) 来确定文章之间的相似性。什么是局部敏感呢?假设

2021-11-17 09:31:19 629

原创 cdk随机生成

# coding=utf-8import randomseed = list("qwertyuiopasdfghjklzxcvbnm1234567890")print(seed)list_sum = []for i in range(200): l = [] for j in range(32): n1 = random.choice(seed) l.append(n1) if j == 7 or j == 11 or j == 1.

2021-10-27 10:56:55 1581

转载 base64加密原理详解

Base64编码,是我们程序开发中经常使用到的编码方法。它是一种基于用64个可打印字符来表示二进制数据的表示方法。它通常用作存储、传输一些二进制数据编码方法!也是MIME(多用途互联网邮件扩展,主要用作电子邮件标准)中一种可打印字符表示二进制数据的常见编码方法!它其实只是定义用可打印字符传输内容一种方法,并不会产生新的字符集! Base64编码原理: 它是用64个可打印字符表示二进制所有数据方法。由于2的6次方等于64,所以可以用每6个位元为一个单元,对应某个可打印字符。我们知道三个...

2021-10-25 15:10:48 2569

转载 js中常见的数据加密与解密的方法

加密在我们前端的开发中也是经常遇见的。本文只把我们常用的加密方法进行总结。不去纠结加密的具体实现方式(密码学,太庞大了)。常见的加密方式常见的加密算法基本分为这几类,线性散列算法(签名算法)MD5 SHA1 对称性加密算法 AES DES 非对称性加密算法 RSAMd5加密 MD5是一种被广泛使用的线性散列算法,可以产生出一个128位(16字节)的散列值(hash value),用于确保信息传输完整一致。 MD5加密之后产生的是一个固定长度(32位或16位)的数据

2021-10-25 14:25:55 5722

原创 两种正文抽取算法的分析

现在网上能搜到的正文抽取算法一般有两类:Readability:该算法先建立DOM树,然后对网页源代码中不同的HTML标签进行判断,逐渐找到正文所在标签位置。该算法的主要优点是可以最大程度的保存网页正文的缩进、空行以及链接。行块分布算法:主要是基于论文《基于行块分布函数的通用网页正文抽取》。该算法不需要建立DOM树,直接剔除HTML标签,剩下的网页文字之间会有一定的位置关系。下面说一下行快分布算法:先上代码# -*- coding: utf-8 -*- import reque.

2021-10-09 17:07:51 1212 2

转载 滑动滑块的反爬 整体思路

整体思路:1、查看js中的检测特征,检查什么,对什么进行修改; 如:cdc、window.navigator.webdriver、开发者模式等。 修改的途径包括exe源码、mitmproxy拦截2、翻页过多引发的滑块问题,涉及到风控;即使把window.navigator.webdriver(js检测特征之一)设置为"undefined"了,还是不能通过。这时候全局搜索一下js,如果网站js里面有一段代码,那很可能就是对selenium的webdriver进行验证的了:1、chrom

2021-10-09 09:48:29 491

转载 【python】python日期格式统一化

# -*- coding: utf-8 -*-"""Created on Tue Jan 8 18:02:03 2019@author: liuty@e-mail: liuty66@163.com@introduction: 解析时间模块"""str1=' 2019-01-08'str2='2019-1-8 00:00:00'str3='2019年1月8日'str4='2019年01月08日'str5='2019/1/8'str6='2019/0...

2021-09-27 08:37:12 781

原创 力扣 回文数

9. 回文数难度简单1585收藏分享切换为英文接收动态反馈给你一个整数x,如果x是一个回文整数,返回true;否则,返回false。回文数是指正序(从左向右)和倒序(从右向左)读都是一样的整数。例如,121是回文,而123不是。示例 1:输入:x = 121输出:true示例2:输入:x = -121输出:false解释:从左向右读, 为 -121 。 从右向左读, 为 121- 。因此它不是一个回文数。示例 3:输入:x = ...

2021-08-16 17:12:02 82

原创 python解码乱码

请看上图!~请看上图!~请看上图!~

2021-08-09 16:04:41 97

转载 Redis的持久化机制你学会了吗?

大家都知道Redis经常被使用在缓存的场景中,那有没有想过这么一个问题,一旦服务器宕机,内存中的数据全部丢失,我们该如何进行恢复呢?如果直接从后端数据库恢复,不仅会给数据库带来巨大的压力,还会使上层应用响应变慢。所以redis的持久化机制是很重要的。接下来我们一起来探讨一下Redis的持久化机制。目前Redis持久化主要有两大机制,即AOF(Append Only File)日志和RDB快照。接下来我们就来分别学习一下。AOF日志 AOF日志,即写后日志,它的含义是Redi...

2021-07-21 17:30:35 59

转载 Python requests post 提交form-data表单

import jsonparams = { 'timestamp':timestamp, 'nonce':nonce, 'apikey':APIKEY, 'signature': signature}data = { 'name':(None, name), 'phone': (None, str(phone)), 'idnum': (None, idnum), 'products': (None, json.dumps([201,]))...

2021-06-22 14:03:16 1493

转载 动态图解RNN、LSTM、GRU

作者 Michael Nguyen王小新 编译自 Towards Data Science量子位 出品 | 公众号 QbitAIAI识别你的语音、回答你的问题、帮你翻译外语,都离不开一种特殊的循环神经网络(RNN):长短期记忆网络(Long short-term memory,LSTM)。最近,国外有一份关于LSTM及其变种GRU(Gated Recurrent Unit)的图解教程非常火。教程先介绍了这两种网络的基础知识,然后解释了让LSTM和GRU具有良好性能的内在机制。当然,通..

2021-02-24 08:00:12 357

原创 leecode 之 无重复字符的最长子串

给定一个字符串,请你找出其中不含有重复字符的最长子串的长度。示例1:输入: "abcabcbb"输出: 3解释: 因为无重复字符的最长子串是 "abc",所以其长度为 3。示例 2:输入: "bbbbb"输出: 1解释: 因为无重复字符的最长子串是 "b",所以其长度为 1。示例 3:输入: "pwwkew"输出: 3解释: 因为无重复字符的最长子串是"wke",所以其长度为 3。 请注意,你的答案必须是 子串 的长度,"pwke"是一个子序列,不是子串...

2020-08-12 14:44:25 121

原创 倒排表的应用--搜索引擎

来源于搜索引擎,海量爬取数据之后,用的是倒排表海量数据的遍历时间复杂度是O(n)如何解决:解决思想:层次过滤, 过滤条件从简单到复杂, 层次间的时间复杂度为递增先过滤部分,再过滤部分,遍历剩余部分要知道某个单词存在在哪些文档里面;具体实施:建立一张表格,记录所有单词被包含在哪些文档之中;应用于问答系统:1、遍历输入的问题,查找每个单词在所有问题中出现的次数;2、若剩余数量多,可统计两个或者多个单词,在同一个问题中出现的次数;3、然后进行语句相似度的计算..

2020-06-09 09:08:50 178

原创 2020-06-06 nlp03之词向量简述

接上篇one-hotone-hot与词向量的分布式表示的不同 举个例子:我们每天都在进步的one-hot表示:我们(1,0, 0, 0, 0) 每天( 0, 1, 0, 0, 0) 都(0, 0, 1, 0, 0) 在( 0, 0, 0, 1,0) 进步( 0, 0, 0, 0, 1)词向量的表示:我们(0.2,0.1, 0.3, 0.5, 0.8) 每天( 0.5, 1.6, 0.4, 0.8, 0.1) 都(...

2020-06-08 10:12:01 458

原创 2020-06-03 nlp_02之文本向量化的几种方式:one-hot, 文本相似度(欧氏距离、余弦相似度), tf-idf

one-hot P30通过构建词典的顺序,找出对应单词的位置,词典:中文有20万-30万个常用词, rnn和lstm中,也有使用字符集的,常用字符大概5000个例子:词典(只有7个单词,即7个维度):[今天, 天气, 不错, 挺,风和日丽,的, 明天]每个单词的表示:今天:[1, 0, 0, 0, 0, 0, 0]不错:[0, 0, 1, 0, 0, 0, 0]的: [0, 0, 0, 0, 0, 1, 0]句子的表示:两种方式:1、boolean, 不...

2020-06-03 15:23:38 1746

原创 python深度学习---人工智能杂记

人工智能的简洁定义如下:努力将通常由人类完成的智力任务自动化。早期的国际象棋程序仅包含程序员精心编写的硬编码规则,并不属于机器学习。在相当长的时间内,许多专家相信,只要程序员精 心编写足够多的明确规则来处理知识,就可以实现与人类水平相当的人工智能。这一方法被称为符号主义人工智能(symbolic AI),从 20 世纪 50 年代到 80 年代末是人工智能的主流范式。 在 20 世纪 80 年代的专家系统(expert system)热潮中,这一方法的热度达到了顶峰;...

2020-06-02 16:44:49 177

原创 2020-05-29 nlp_01之停用词过滤、stemming

停用词把停用词、出现频率很低的词汇过滤掉。原因:经常出现的或者频率很低的词,并没有实际意义的词,可以认为是噪声,会影响模型的判断,给模型带来一定的影响目的:筛选出价值比较高的特征,可以把停用词理解成价值比较小的特征,可以忽略不计例子:英文: the an their中文:的 啊 好 很好 等同样也得根据具体的场景进行判断对于情感分析的词:好,很好 是需要保留的建议使用:已有的停用词库(如:NLTK),然后删除自己认为有用的词语筛选规则: 将文本汇总分词之后, 筛选..

2020-05-29 10:55:49 746

原创 python pandas之每个人都有自己的哈姆雷特

四段代码实现的都是一个功能,筛选出有效的数据:第一段for index, row in df_zhi_shu.iterrows(): # print(row['经营状态']) # 之前保存的时候,部分格式错误,所以采用try的方式,进行同一的内容提取 if str(row['经营状态']).strip() != "存续" and str(row['经营状态']).strip() != "在业": # 根据domain进行去重 df_zhi_shu.drop

2020-05-15 10:01:29 267

原创 python3 leecode之最大子序之和

给定一个整数数组 nums,找到一个具有最大和的连续子数组(子数组最少包含一个元素),返回其最大和。示例:输入: [-2,1,-3,4,-1,2,1,-5,4],输出: 6解释:连续子数组[4,-1,2,1] 的和最大,为6。进阶:如果你已经实现复杂度为 O(n) 的解法,尝试使用更为精妙的分治法求解。来源:力扣(LeetCode)链接:https://leetco...

2020-05-13 10:52:52 152

转载 Pandas速查手册中文版

本文翻译自文章:Pandas Cheat Sheet - Python for Data Science,同时添加了部分注解。对于数据科学家,无论是数据分析还是数据挖掘来说,Pandas是一个非常重要的Python包。它不仅提供了很多方法,使得数据处理非常简单,同时在数据处理速度上也做了很多优化,使得和Python内置方法相比时有了很大的优势。如果你想学习Pandas,建议先看两个网站。(1)官网:Python Data Analysis Library(2)十分钟入门Pandas:10 M

2020-05-13 10:16:39 329

原创 python leecode之反转字符串

编写一个函数,其作用是将输入的字符串反转过来。输入字符串以字符数组 char[] 的形式给出。不要给另外的数组分配额外的空间,你必须原地修改输入数组、使用 O(1) 的额外空间解决这一问题。你可以假设数组中的所有字符都是 ASCII 码表中的可打印字符。我的第一反映是:列表的反转方法直接 return s.reverse()然后就看了看别人的解体思路:通过步长直接反转...

2020-04-30 14:22:11 149

原创 python3 leecode之快乐数

题目:编写一个算法来判断一个数 n 是不是快乐数。「快乐数」定义为:对于一个正整数,每一次将该数替换为它每个位置上的数字的平方和,然后重复这个过程直到这个数变为 1,也可能是 无限循环 但始终变不到 1。如果 可以变为1,那么这个数就是快乐数。如果 n 是快乐数就返回 True ;不是,则返回 False 。来源:力扣(LeetCode)链接:https://leetcode...

2020-04-30 13:57:22 268 1

原创 python 二分查找

因为懒得打字,就把自己写的xmind截图发上来了。(如果图挂了,请留言)下面粘贴python的代码:def binary_search(num_list, num): """ 为什么 -1 因为列表根据下标取值,下标为0-99 """ low = 0 high = len(num_list) - 1 while low <= hi...

2020-04-11 22:22:57 155

转载 非语言模型之SkipGram与CBOW

1、条件概率:P(A|B) = P(AB)/P(B);P(A|B)——在 B 条件下 A 的概率。即事件A 在另外一个事件 B 已经发生条件下的发生概率;P(AB)——事件A、 B同时发生的概率,即联合概率.联合概率表示两个事件共同发生的概率.A 与 B 的联合概率表示为 P(AB) 或者 P(A,B);P(B)——事件B发生的概率;2、用一张图开说明两者之间的区别:3、sk...

2020-02-24 09:09:53 5420

转载 控制 matplotlib 子图大小

效果图:代码:import numpy as npimport matplotlib.pyplot as plt'''调整 matplotlib 子图的大小'''x1 = np.linspace(0.0, 5.0)x2 = np.linspace(0.0, 2.0)y1 = np.cos(2 * np.pi * x1) * np.exp(-x1)y2 = ...

2020-02-13 10:47:57 6348

原创 聚类算法之LDA

因工作需要,对2000多篇文件进行聚类,由于文本长度较短,所以聚类效果不好,随着主题数量的增加,困惑度一直增加,并未出现困惑度减少的现象,让我一直怀疑自己的做法是否正确。后来通过对通过标题+文本的拼接,才出现较好的收敛;perplexity(困惑度)在对文本的主题特征进行研究时,要指定LDA生成的主题的数目,而一般的解决方法是使用perplexity来计算其中z是主题,w是...

2020-01-02 16:26:58 3340

原创 python 实用功能

# 词频统计word_counts = collections.Counter(object_list) # 对分词做词频统计word_counts_top = word_counts.most_common() # 可添加参数,获取前n最高频的词print(word_counts_top) # 输出检查word_list, count_list = list(), list()...

2019-12-27 09:10:19 131

原创 matpltlib python

1、指定字体,解决中文无法显示plt.rcParams['font.sans-serif'] = ['SimHei']# 子图和x轴旋转fig = plt.figure()ax1 = fig.add_subplot(2, 1, 1)ax2 = fig.add_subplot(2, 1, 2)# 添加标题ax1.set_title('情绪指数')ax2.set_title('...

2019-12-24 16:03:44 203

原创 余弦相似度

tf-idf余弦相似度http://www.52nlp.cn/tag/lsihttps://www.cnblogs.com/zuixime0515/p/9206861.htmlcountvectorhttps://blog.csdn.net/m0_37870649/article/details/81744977

2019-12-13 16:33:22 103

转载 机器学习之模型融合

模型融合简单来说就是通过对一组的基分类器以某种方式进行组合,以提升模型整体性能的方法。当然,模型融合不能起到决定性作用,在影响模型结果的因素中,一般来说是数据>特征>模型>模型融合。在业界流传着这么一句话,数据和特征决定了机器学习的上限,而模型和算法只是在逼近这个上限而已。所以,无论是在比赛中还是在处理实际问题的时候特征工程无疑是非常重要的,在数据和特征都无法提升比赛成绩的时候,...

2019-12-09 11:26:14 569

原创 记20191207美团49期ai沙龙

一共四位老师对四个模块进行分享:1、推荐;2、营销;3、图像;4、NLP本人现在从事的工作与NLP相关,特重点留意NLP相关的知识:美团在上线的技术中,模型主要还是使用双向LSTM + attention机制;Transformer;Seq2Seq等; 像bert这种预训练模型由于参数较多,并没有应用于线上;业务上有知识图谱、语义理解、情感分类、命名体识别等,应用范围还是比较广的;...

2019-12-08 12:02:40 77

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除