日出2133-CSDN博客

原创 python 50个中文字

所以想到了用中文字符的数量，判断一段文本，是有使用价值，从而过滤一些无效的文本。大模型有幻觉，部分情况下，是由于文本中，没有中文字符或只有少量中文字符。

2025-04-16 16:39:26 102

原创零门槛，即刻拥有DeepSeek-R1满血版（阿里云百炼-API）

阿里云百炼出部署了满血版R1，API调用

2025-03-04 17:50:30 248

中文是"交换空间"，充当ubuntu的虚拟内存，一般的大小为电脑物理内存的2倍左右，可以将其分为 64G=64*1024M=3) /:这是ubuntu 的根目录,用于安装系统和软件，相当于windows的C盘，我们将其分为 20G，好了，分区完毕，你完全可以按照上面的描述进行分区，不会有任何问题，起码我一直都是这么做的（强烈建议）。，空间起始位置，用于"ext4日志文件系统"，挂载点为"/home"，空间起始位置，用于"swap"或"交换空间"，在唯一的一个空闲分区上添加，大小512M，

2023-05-05 16:58:30 909

原创 html，xpath合并P标签以下的内容

html，xpath合并P标签以下的内容，同时删除P标签下的span标签。

2023-04-26 09:30:54 487

原创逻辑回归全面解析

如要分类为 A，B，C 三类，将 A，B 作为正向数据，C 作为负向数据，训练出一个分模型，再将 A，C 作为正向数据，B 作为负向数据，训练出一个分类模型，最后 B，C 作为正向数据，C 作为负向数据，训练出一个模型，通过这三个模型就能实现多分类。对于多分类问题，只有 ‘newton-cg’、‘sag’、‘saga’ 和 ‘lbfgs’ 能够处理多项损失，而 ‘liblinear’ 面对多分类问题，得先把一种类别作为一个类别，剩余的所有类别作为另外一个类别。依次类推，遍历所有类别，进行分类。

2023-03-14 17:18:02 587

原创 Supervisor

首先，介绍一下supervisor。Supervisor（http://supervisord.org）是用Python开发的一个client/server服务，是Linux/Unix系统下的一个进程管理工具，不支持Windows系统。它可以很方便的监听、启动、停止、重启一个或多个进程。用Supervisor管理的进程，当一个进程意外被杀死，supervisort监听到进程死后，会自动将它重新拉起，很方便的做到进程自动恢复的功能，不再需要自己写shell脚本来控制环境：centos7.4。

2022-11-14 17:15:34 1527

原创分布式ID生成算法——雪花算法

雪花算法（Snowflake），是Twitter公司提出的一种分布式ID生成算法，是分布式ID问题的经典解决方案。此算法生成的是一个64bit（8字节）的ID，在Java中使用8字节的long来存放，在数据库推荐用bigint来存储。可以提前在机器ID或者序列号中留出拓展位置0，当出现时钟回拨时，将拓展位置1，这样也可以保证生成ID的唯一性。时钟回拨，就是服务器上的时间突然倒退回之前的时间，时钟回拨会导致ID不唯一的问题。有时候不同的机器上需要同步时间，可能不同的机器存在误差，也会出现时钟回拨。

2022-10-25 15:47:30 3323

原创标签平滑(label smoothing) torch和tensorflow的实现

在常见的多分类问题中，先经过softmax处理后进行交叉熵计算，原理很简单可以将计算loss理解为，为了使得网络对测试集预测的概率分布和其真实分布接近，常用的做法是使用one-hot对真实标签进行编码，然后用预测概率去拟合one-hot的真实概率。但是这样会带来两个问题：无法保证模型的泛化能力，使网络过于自信会导致过拟合；全概率和0概率鼓励所属类别和其他类别之间的差距尽可能加大，而由梯度有界可知，这种情况很难adapt。会造成模型过于相信预测的类别。标签平滑可以缓解这个问题，可以有两个角度理解这件事

2022-05-17 16:14:27 1775

原创 python 处理table

# -*- coding: utf-8 -*-from collections import defaultdictdef table_to_list(table): dct = table_to_2d_dict(table) return list(iter_2d_dict(dct))def table_to_2d_dict(table): result = defaultdict(lambda : defaultdict(str)) for row_i, .

2022-05-06 17:16:16 1235 1

原创 torch系列之手写数字识别（实战）

识别准确率99%有问题留言。直接上代码：文件夹名称：MNIST_CNN_train文件：model_CNN.py文件：train.py文件：test.py

2021-12-02 18:38:56 1756

原创 simHash介绍及python实现

1、simHash简介simHash算法是GoogleMoses Charikear于2007年发布的一篇论文《Detecting Near-duplicates for web crawling》中提出的，专门用来解决亿万级别的网页去重任务。simHash是局部敏感哈希（locality sensitve hash）的一种，主要思想是降维，将高维的特征向量映射成低维的特征向量，再通过比较两个特征向量的汉明距离（Hamming Distance）来确定文章之间的相似性。什么是局部敏感呢？假设

2021-11-17 09:31:19 684

原创 cdk随机生成

# coding=utf-8import randomseed = list("qwertyuiopasdfghjklzxcvbnm1234567890")print(seed)list_sum = []for i in range(200): l = [] for j in range(32): n1 = random.choice(seed) l.append(n1) if j == 7 or j == 11 or j == 1.

2021-10-27 10:56:55 1892

转载 base64加密原理详解

Base64编码，是我们程序开发中经常使用到的编码方法。它是一种基于用64个可打印字符来表示二进制数据的表示方法。它通常用作存储、传输一些二进制数据编码方法！也是MIME（多用途互联网邮件扩展，主要用作电子邮件标准）中一种可打印字符表示二进制数据的常见编码方法！它其实只是定义用可打印字符传输内容一种方法，并不会产生新的字符集！ Base64编码原理：它是用64个可打印字符表示二进制所有数据方法。由于2的6次方等于64，所以可以用每6个位元为一个单元，对应某个可打印字符。我们知道三个...

2021-10-25 15:10:48 2673

转载 js中常见的数据加密与解密的方法

加密在我们前端的开发中也是经常遇见的。本文只把我们常用的加密方法进行总结。不去纠结加密的具体实现方式（密码学，太庞大了）。常见的加密方式常见的加密算法基本分为这几类，线性散列算法（签名算法）MD5 SHA1 对称性加密算法 AES DES 非对称性加密算法 RSAMd5加密 MD5是一种被广泛使用的线性散列算法，可以产生出一个128位（16字节）的散列值（hash value），用于确保信息传输完整一致。 MD5加密之后产生的是一个固定长度（32位或16位）的数据

2021-10-25 14:25:55 6332

原创两种正文抽取算法的分析

现在网上能搜到的正文抽取算法一般有两类：Readability：该算法先建立DOM树，然后对网页源代码中不同的HTML标签进行判断，逐渐找到正文所在标签位置。该算法的主要优点是可以最大程度的保存网页正文的缩进、空行以及链接。行块分布算法：主要是基于论文《基于行块分布函数的通用网页正文抽取》。该算法不需要建立DOM树，直接剔除HTML标签，剩下的网页文字之间会有一定的位置关系。下面说一下行快分布算法：先上代码# -*- coding: utf-8 -*- import reque.

2021-10-09 17:07:51 1700 2

转载滑动滑块的反爬整体思路

整体思路：1、查看js中的检测特征，检查什么，对什么进行修改；如：cdc、window.navigator.webdriver、开发者模式等。修改的途径包括exe源码、mitmproxy拦截2、翻页过多引发的滑块问题，涉及到风控；即使把window.navigator.webdriver（js检测特征之一）设置为"undefined"了，还是不能通过。这时候全局搜索一下js，如果网站js里面有一段代码，那很可能就是对selenium的webdriver进行验证的了：1、chrom

2021-10-09 09:48:29 581

转载【python】python日期格式统一化

# -*- coding: utf-8 -*-"""Created on Tue Jan 8 18:02:03 2019@author: liuty@e-mail: liuty66@163.com@introduction: 解析时间模块"""str1=' 2019-01-08'str2='2019-1-8 00:00:00'str3='2019年1月8日'str4='2019年01月08日'str5='2019/1/8'str6='2019/0...

2021-09-27 08:37:12 883

原创力扣回文数

9. 回文数难度简单1585收藏分享切换为英文接收动态反馈给你一个整数x，如果x是一个回文整数，返回true；否则，返回false。回文数是指正序（从左向右）和倒序（从右向左）读都是一样的整数。例如，121是回文，而123不是。示例 1：输入：x = 121输出：true示例2：输入：x = -121输出：false解释：从左向右读, 为 -121 。从右向左读, 为 121- 。因此它不是一个回文数。示例 3：输入：x = ...

2021-08-16 17:12:02 118

原创 python解码乱码

请看上图！~请看上图！~请看上图！~

2021-08-09 16:04:41 139

转载 Redis的持久化机制你学会了吗?

大家都知道Redis经常被使用在缓存的场景中，那有没有想过这么一个问题，一旦服务器宕机，内存中的数据全部丢失，我们该如何进行恢复呢？如果直接从后端数据库恢复，不仅会给数据库带来巨大的压力，还会使上层应用响应变慢。所以redis的持久化机制是很重要的。接下来我们一起来探讨一下Redis的持久化机制。目前Redis持久化主要有两大机制，即AOF(Append Only File)日志和RDB快照。接下来我们就来分别学习一下。AOF日志 AOF日志，即写后日志，它的含义是Redi...

2021-07-21 17:30:35 91

转载 Python requests post 提交form-data表单

import jsonparams = { 'timestamp':timestamp, 'nonce':nonce, 'apikey':APIKEY, 'signature': signature}data = { 'name':(None, name), 'phone': (None, str(phone)), 'idnum': (None, idnum), 'products': (None, json.dumps([201,]))...

2021-06-22 14:03:16 1585

转载动态图解RNN、LSTM、GRU

作者 Michael Nguyen王小新编译自 Towards Data Science量子位出品 | 公众号 QbitAIAI识别你的语音、回答你的问题、帮你翻译外语，都离不开一种特殊的循环神经网络（RNN）：长短期记忆网络（Long short-term memory，LSTM）。最近，国外有一份关于LSTM及其变种GRU（Gated Recurrent Unit）的图解教程非常火。教程先介绍了这两种网络的基础知识，然后解释了让LSTM和GRU具有良好性能的内在机制。当然，通..

2021-02-24 08:00:12 422

原创 leecode 之无重复字符的最长子串

给定一个字符串，请你找出其中不含有重复字符的最长子串的长度。示例1:输入: "abcabcbb"输出: 3解释: 因为无重复字符的最长子串是 "abc"，所以其长度为 3。示例 2:输入: "bbbbb"输出: 1解释: 因为无重复字符的最长子串是 "b"，所以其长度为 1。示例 3:输入: "pwwkew"输出: 3解释: 因为无重复字符的最长子串是"wke"，所以其长度为 3。请注意，你的答案必须是子串的长度，"pwke"是一个子序列，不是子串...

2020-08-12 14:44:25 166

原创倒排表的应用--搜索引擎

来源于搜索引擎，海量爬取数据之后，用的是倒排表海量数据的遍历时间复杂度是O(n)如何解决：解决思想：层次过滤，过滤条件从简单到复杂，层次间的时间复杂度为递增先过滤部分，再过滤部分，遍历剩余部分要知道某个单词存在在哪些文档里面；具体实施：建立一张表格，记录所有单词被包含在哪些文档之中；应用于问答系统：1、遍历输入的问题，查找每个单词在所有问题中出现的次数；2、若剩余数量多，可统计两个或者多个单词，在同一个问题中出现的次数；3、然后进行语句相似度的计算..

2020-06-09 09:08:50 210

原创 2020-06-06 nlp03之词向量简述

接上篇one-hotone-hot与词向量的分布式表示的不同举个例子：我们每天都在进步的one-hot表示：我们(1,0, 0, 0, 0) 每天( 0, 1, 0, 0, 0) 都(0, 0, 1, 0, 0) 在( 0, 0, 0, 1,0) 进步( 0, 0, 0, 0, 1)词向量的表示：我们(0.2,0.1, 0.3, 0.5, 0.8) 每天( 0.5, 1.6, 0.4, 0.8, 0.1) 都(...

2020-06-08 10:12:01 499

原创 2020-06-03 nlp_02之文本向量化的几种方式：one-hot, 文本相似度（欧氏距离、余弦相似度）, tf-idf

one-hot P30通过构建词典的顺序，找出对应单词的位置，词典：中文有20万-30万个常用词， rnn和lstm中，也有使用字符集的，常用字符大概5000个例子：词典（只有7个单词，即7个维度）：[今天，天气，不错，挺，风和日丽，的，明天]每个单词的表示：今天：[1, 0, 0, 0, 0, 0, 0]不错：[0, 0, 1, 0, 0, 0, 0]的： [0, 0, 0, 0, 0, 1, 0]句子的表示：两种方式：1、boolean，不...

2020-06-03 15:23:38 1860

原创 python深度学习---人工智能杂记

人工智能的简洁定义如下：努力将通常由人类完成的智力任务自动化。早期的国际象棋程序仅包含程序员精心编写的硬编码规则，并不属于机器学习。在相当长的时间内，许多专家相信，只要程序员精心编写足够多的明确规则来处理知识，就可以实现与人类水平相当的人工智能。这一方法被称为符号主义人工智能（symbolic AI），从 20 世纪 50 年代到 80 年代末是人工智能的主流范式。在 20 世纪 80 年代的专家系统（expert system）热潮中，这一方法的热度达到了顶峰；...

2020-06-02 16:44:49 218

原创 2020-05-29 nlp_01之停用词过滤、stemming

停用词把停用词、出现频率很低的词汇过滤掉。原因：经常出现的或者频率很低的词，并没有实际意义的词，可以认为是噪声，会影响模型的判断，给模型带来一定的影响目的：筛选出价值比较高的特征，可以把停用词理解成价值比较小的特征，可以忽略不计例子：英文： the an their中文：的啊好很好等同样也得根据具体的场景进行判断对于情感分析的词：好，很好是需要保留的建议使用：已有的停用词库（如：NLTK），然后删除自己认为有用的词语筛选规则：将文本汇总分词之后，筛选..

2020-05-29 10:55:49 852

原创 python pandas之每个人都有自己的哈姆雷特

四段代码实现的都是一个功能，筛选出有效的数据:第一段for index, row in df_zhi_shu.iterrows(): # print(row['经营状态']) # 之前保存的时候，部分格式错误，所以采用try的方式，进行同一的内容提取 if str(row['经营状态']).strip() != "存续" and str(row['经营状态']).strip() != "在业": # 根据domain进行去重 df_zhi_shu.drop

2020-05-15 10:01:29 315

原创 python3 leecode之最大子序之和

给定一个整数数组 nums，找到一个具有最大和的连续子数组（子数组最少包含一个元素），返回其最大和。示例:输入: [-2,1,-3,4,-1,2,1,-5,4],输出: 6解释:连续子数组[4,-1,2,1] 的和最大，为6。进阶:如果你已经实现复杂度为 O(n) 的解法，尝试使用更为精妙的分治法求解。来源：力扣（LeetCode）链接：https://leetco...

2020-05-13 10:52:52 191

转载 Pandas速查手册中文版

本文翻译自文章：Pandas Cheat Sheet - Python for Data Science，同时添加了部分注解。对于数据科学家，无论是数据分析还是数据挖掘来说，Pandas是一个非常重要的Python包。它不仅提供了很多方法，使得数据处理非常简单，同时在数据处理速度上也做了很多优化，使得和Python内置方法相比时有了很大的优势。如果你想学习Pandas，建议先看两个网站。（1）官网：Python Data Analysis Library（2）十分钟入门Pandas：10 M

2020-05-13 10:16:39 428

原创 python leecode之反转字符串

编写一个函数，其作用是将输入的字符串反转过来。输入字符串以字符数组 char[] 的形式给出。不要给另外的数组分配额外的空间，你必须原地修改输入数组、使用 O(1) 的额外空间解决这一问题。你可以假设数组中的所有字符都是 ASCII 码表中的可打印字符。我的第一反映是：列表的反转方法直接 return s.reverse()然后就看了看别人的解体思路：通过步长直接反转...

2020-04-30 14:22:11 179

原创 python3 leecode之快乐数

题目：编写一个算法来判断一个数 n 是不是快乐数。「快乐数」定义为：对于一个正整数，每一次将该数替换为它每个位置上的数字的平方和，然后重复这个过程直到这个数变为 1，也可能是无限循环但始终变不到 1。如果可以变为1，那么这个数就是快乐数。如果 n 是快乐数就返回 True ；不是，则返回 False 。来源：力扣（LeetCode）链接：https://leetcode...

2020-04-30 13:57:22 346 1

原创 python 二分查找

因为懒得打字，就把自己写的xmind截图发上来了。（如果图挂了，请留言）下面粘贴python的代码：def binary_search(num_list, num): """ 为什么 -1 因为列表根据下标取值，下标为0-99 """ low = 0 high = len(num_list) - 1 while low <= hi...

2020-04-11 22:22:57 189

转载非语言模型之SkipGram与CBOW

1、条件概率：P(A|B) = P(AB)/P(B)；P(A|B)——在 B 条件下 A 的概率。即事件A 在另外一个事件 B 已经发生条件下的发生概率；P(AB)——事件A、 B同时发生的概率,即联合概率.联合概率表示两个事件共同发生的概率.A 与 B 的联合概率表示为 P(AB) 或者 P(A,B)；P(B)——事件B发生的概率；2、用一张图开说明两者之间的区别：3、sk...

2020-02-24 09:09:53 5615

转载控制 matplotlib 子图大小

效果图：代码：import numpy as npimport matplotlib.pyplot as plt'''调整 matplotlib 子图的大小'''x1 = np.linspace(0.0, 5.0)x2 = np.linspace(0.0, 2.0)y1 = np.cos(2 * np.pi * x1) * np.exp(-x1)y2 = ...

2020-02-13 10:47:57 6471

原创聚类算法之LDA

因工作需要，对2000多篇文件进行聚类，由于文本长度较短，所以聚类效果不好，随着主题数量的增加，困惑度一直增加，并未出现困惑度减少的现象，让我一直怀疑自己的做法是否正确。后来通过对通过标题+文本的拼接，才出现较好的收敛；perplexity（困惑度）在对文本的主题特征进行研究时，要指定LDA生成的主题的数目，而一般的解决方法是使用perplexity来计算其中z是主题，w是...

2020-01-02 16:26:58 3767

原创 python 实用功能

# 词频统计word_counts = collections.Counter(object_list) # 对分词做词频统计word_counts_top = word_counts.most_common() # 可添加参数，获取前n最高频的词print(word_counts_top) # 输出检查word_list, count_list = list(), list()...

2019-12-27 09:10:19 171

原创 matpltlib python

1、指定字体，解决中文无法显示plt.rcParams['font.sans-serif'] = ['SimHei']# 子图和x轴旋转fig = plt.figure()ax1 = fig.add_subplot(2, 1, 1)ax2 = fig.add_subplot(2, 1, 2)# 添加标题ax1.set_title('情绪指数')ax2.set_title('...

2019-12-24 16:03:44 247

原创余弦相似度

tf-idf余弦相似度http://www.52nlp.cn/tag/lsihttps://www.cnblogs.com/zuixime0515/p/9206861.htmlcountvectorhttps://blog.csdn.net/m0_37870649/article/details/81744977

2019-12-13 16:33:22 131

空空如也

空空如也