Python
小何才露尖尖角
任何时候,我对世界总有一个主观的先验判断,但是这个判断会随着世界的真实变化而随机修正,我对世界永远保持开放的态度--Thomas Bayes
展开
-
ast.literal_eval 将字符串 ‘[NaN,NaN,0.0]‘ 转为列表时报错:ValueError: malformed node or string on line 1: <ast.N
kimi prompt: ast.literal_eval 将字符串 ‘[NaN,NaN,0.0]’ 转为列表时报错:ValueError: malformed node or string on line 1: <ast.Name object at 0x0000029929149B50>使用 json.loads() 替代,因为 JSON 支持 NaN 值的序列化和反序列化。原创 2024-07-19 17:28:24 · 277 阅读 · 0 评论 -
spark.createDataFrame(pandas_df)遇错 AttributeError: ‘DataFrame‘ object has no attribute ‘iteritems‘.
解决方案 安装2.0以下版本的 pandas原创 2024-06-23 23:11:58 · 259 阅读 · 0 评论 -
Python字典对象是可变对象
在Python中,字典是可变对象,它们的值可以是任何类型,包括另一个字典或者列表等可变对象。当你在字典中将一个字典赋值给一个键时,你实际上是将这个字典对象的引用赋给了这个键,而不是创建了该字典的一个副本原创 2024-06-07 10:21:01 · 223 阅读 · 0 评论 -
python 注册环境变量
【代码】python 注册环境变量。原创 2024-04-11 17:53:56 · 137 阅读 · 1 评论 -
python使用 concurrent.futures 启动并行任务
以相同的方式工作,它使用多进程而不是多线程作为工作池。顾名思义,创建一个可以提交作业的线程池。原创 2024-02-28 11:17:50 · 412 阅读 · 0 评论 -
BPE原理及代码简单演示
BPE(Byte pair encoding)是对字节编码,BPE 算法是在 UTF-8 编码的字符串上运行的,所以它是“字节级”的。 理论上任何 UTF-8 编码的字符串都可以统一使用 BPE原创 2024-02-19 18:26:32 · 685 阅读 · 0 评论 -
tqdm和zip一起用进度条不显示的解决方法
for a,b in tqdm(zip(x, y), total=len(x)): # 添加一个参数 total 即可原创 2024-01-31 10:12:17 · 398 阅读 · 0 评论 -
sklearn 计算 tfidf 得到每个词分数
sklearn 计算 tfidf 得到每个词分数原创 2024-01-30 16:51:06 · 580 阅读 · 0 评论 -
拷贝 hugging face 仓库到 colab
【代码】拷贝 hugging face 仓库到 colab。原创 2024-01-16 11:24:54 · 783 阅读 · 0 评论 -
df 计算同一列时间差(差分pandas.diff())
【代码】df 计算同一列时间差(差分pandas.diff())原创 2024-01-15 10:14:20 · 631 阅读 · 0 评论 -
Amphion tts(Text to Speech) 语音合成
强烈推荐使用带 GPU 的 Ubuntu 或 Centos 系统运行,可以租一个比较便宜的机器实例运行原创 2023-12-29 16:55:00 · 710 阅读 · 0 评论 -
numpy.memmap 用法与注意事项
当处理大数组时,内存可能不够用。numpy 提供了一个函数 np.memmap() 让我们可以处理大数组。np.memmap() 可以读取大磁盘文件中的一小段到内存,所以它占内存较小。原创 2023-12-12 16:55:08 · 1747 阅读 · 0 评论 -
pandas 将DataFrame 转为txt文本,去除引号问题
此方法会导致原文中多 escapechar=’ ’ 这种空格。原创 2023-11-27 15:39:36 · 899 阅读 · 0 评论 -
python3.7升级为更高版本并迁移库
【代码】python3.7升级为更高版本并迁移库。原创 2023-11-22 14:28:59 · 831 阅读 · 0 评论 -
deeplog中输出某个 event 的概率
step2 DeepLog 类中添加如下函数。step1 找到安装包位置。原创 2023-11-09 16:22:20 · 211 阅读 · 0 评论 -
deeplog打印损失
找到安装包 torchtrain, 打开module.py文件删除文件夹。原创 2023-11-01 16:39:19 · 185 阅读 · 0 评论 -
python 打印与去除不可见字符 \x00
其中strip()只能去掉\r,\n,\t,无法去掉\x00。所以 text.strip()==“boot_1__normal/” 两者不相等。原创 2023-10-31 16:09:42 · 844 阅读 · 0 评论 -
Tesseract OCR 报错 PermissionError: [WinError 5] 拒绝访问
【代码】Tesseract OCR 报错 PermissionError: [WinError 5] 拒绝访问。原创 2023-10-30 09:32:05 · 485 阅读 · 0 评论 -
pandas读取json文件,文件中包含多个json对象
可以使用 jsonlines 库,读取多个json对象的json文件。, 内容如下,里面包含多个 json 对象。直接使用 json 读取会报错。也可以使用 pandas 读取。原创 2023-10-26 10:58:04 · 534 阅读 · 0 评论 -
linux下安装 Chrome 和 chromedriver 以及 selenium webdriver 使用
https://googlechromelabs.github.io/chrome-for-testing/ (推荐,包含最新稳定版)现在就可以使用 selenium 的 webdriver 爬取内容了。chromedriver对应下载地址。原创 2023-10-25 17:04:33 · 6125 阅读 · 0 评论 -
scrapy typeerror: attrs() got an unexpected keyword argument ‘eq‘
scrapy typeerror: attrs() got an unexpected keyword argument 'eq'原创 2023-10-25 13:56:13 · 317 阅读 · 0 评论 -
Jupyter Notebook 设置黑色背景主题
【代码】Jupyter Notebook 设置黑色背景主题。原创 2023-10-19 14:07:16 · 2040 阅读 · 0 评论 -
python使用PyPDF2包:pdf转doc
使用 PyPDF2 转 doc 文档原创 2023-09-25 10:51:11 · 673 阅读 · 0 评论 -
理解LLM中的ReAct
large language models (LLMs)大语言模型在语义理解和交互式决策方面有着不错的表现。ReAct在一次交互中循环使用推理和行动两个操作解决复杂问题,推理即利用模型自身语义理解能力,行动则利用模型以外的能力(如计算、搜索最新消息,用户自定义的行动)。Observation:可以理解为从模型以外获取的信息(如查询的信息、计算的信息)Action:采取的行动,如:搜索Search,匹配最相近结果Lookup。Thought:模型利用已有信息进行推理。一个使用 ReAct 的例子。原创 2023-07-16 11:24:28 · 1727 阅读 · 0 评论 -
LangChain(6)构建用户自己的Agent
LangChain 中有一些可用的Agent内置工具,但在实际应用中我们可能需要编写自己的Agent。原创 2023-07-15 20:12:37 · 3083 阅读 · 2 评论 -
LangChain(5)Conversational Agents
Large Language Models (LLMs) 在语义知识方面表现不错,但也有一些不足,如:不能正确计算数学公式、无法获取最新知识新闻通过 Agents 可以赋予 LLMs 更多能力,让LLM能够计算、上网查询。原创 2023-07-15 15:16:16 · 2537 阅读 · 0 评论 -
LangChain(4)检索增强 Retrieval Augmentation
Large Language Models (LLMs) 的能力或者知识来自两方面:模型在训练时候的输入;模型训练好后以提示词方式输入到模型中的知识source knowledge。检索增强就是指后期输入到模型中的附加信息。原创 2023-07-15 12:18:21 · 2872 阅读 · 0 评论 -
LangChain(3)对话缓存方式 Conversational Memory
LLM 默认是无状态的,即询问当前的问题与上下文无关,当我们需要将多轮对话信息给到LLM 时,就需要使用缓存Memory。原创 2023-07-14 19:56:55 · 2863 阅读 · 0 评论 -
LangChain(2)提示工程 Prompt Engineering
提示一般包含如下部分:Instructions:整体结构,模型的人设External information:额外提供给模型的信息User input or query:用户输入的问题Output indicator:模型应该输出什么样的结果。原创 2023-07-13 21:25:05 · 3189 阅读 · 0 评论 -
LangChain(1)简介
LangChain 可包含的模块:Prompt templates: 提示模板Prompt templates are templates for different types of prompts. Like “chatbot” style templates, ELI5 question-answering, etcLLMs: 大语言模型Large language models like GPT-3, BLOOM, etcAgents: 代理,代理可以决定执行什么操作Agents use LL原创 2023-07-12 21:23:52 · 1064 阅读 · 0 评论 -
MySQL插入数据问题 Incorrect string value: ‘\\xF0\\x9F\\x96\\xA4\\xE7\\xAC...‘ for column ‘content‘
MySQL 中数据编码格式设置为“utf-8”,对于汉字来说足够;Mysql中utf8占3个字节,但是,3个字节对于表情符号是不够的,需4个字节;当插入字符串中有表情符号时,此时使用utf8,会出现‘\xF0\x9F\x8D\x83\xF0\x9F’的问题。原创 2023-07-05 10:28:51 · 1192 阅读 · 0 评论 -
python使用set函数去重且保证原来列表中元素顺序的方法
python使用set函数去重且保证原来列表中元素顺序的方法原创 2023-06-06 16:59:01 · 457 阅读 · 0 评论 -
AttributeError: module ‘mlxtend‘ has no attribute ‘preprocessing‘
from mlxtend import preprocessingte = preprocessing.TransactionEncoder()原创 2023-06-05 10:00:29 · 211 阅读 · 0 评论 -
python包之matplotlib基础概念和代码详解
Figure: 可以理解为 **canvas(画布)**,在画布上可以展示一个或多个Axes。Axes:中文翻译为轴,但与数学中的概念不同,Axes可以理解为**子画布**,它属于Figure。也可以理解为它就是一个图形,每个Axes有自己的轴、标题、图例等原创 2023-05-23 17:02:23 · 174 阅读 · 0 评论 -
python包之reportlab生成pdf文档(1)-HelloWorld
canvas 画布提供绘画操作,可以认为 canvas 是一张白纸,我们可以自由的在上面绘画。绘画就需要工具,在 canvas 中,绘画工具就是 **线条、文本、图形、图像等。**正如铅笔的颜色、粗细等状态一样,**canvas工具也有状态(state),那就是字体、字体大小、颜色、线条粗细等。**canvas 笛卡尔直角坐标, 起始坐标 (0,0) 为左下角。原创 2023-05-19 21:35:04 · 379 阅读 · 1 评论 -
Python快速实现词频计算
from collections import Counterfrom itertools import chaindef count_key_value(corpus): # word_freq 是个字典,key=词,value=词频 # Counter 是实现的 dict 的一个子类,可以用来方便地计数,统计词频 # chain函数来自于itertools库,itertools库提供了非常有用的基于迭代对象的函数,而chain函数则是可以串联多个迭代对象来形成一个更大的迭代对原创 2022-03-08 15:16:20 · 1144 阅读 · 0 评论 -
决策树可视化
决策树可视化原创 2023-03-06 18:03:47 · 249 阅读 · 0 评论 -
解决帆软中不能制作城市热力图的问题
1 问题描述想依照这样的表制作一张城市热力图, 字段如下:城市名值重庆100长春22广州52但在帆软中只能按照省份,或者一个省份下的城市制作热力图,而不能选择全部城市进行匹配2 解决方案帆软中的地图文件是以 .json 文件格式存储的,目录:%FR_HOME%\webapps\webroot\WEB-INF\assets\map\geographic\world\中国,分为-area.json 面积文件 和 -point.json 点文件,仿照这种形原创 2021-08-20 18:44:24 · 890 阅读 · 3 评论 -
colab 中 gpu 可用,但torch.cuda.is_available() 为 False
colab 中 gpu 可用,但torch.cuda.is_available() 为 False原创 2023-01-04 11:28:30 · 859 阅读 · 0 评论 -
ffpeg 使用:多段 mp4 视频合成一个 python 脚本
将多个 mp4 文件直接拼接会使得视频偏长,原本多个视频文件加起来可能只有几秒,合并之后变为几分钟了。这里采取的策略是将 mp4 转为 ts 文件之后再合并。原创 2022-12-30 13:49:55 · 1081 阅读 · 0 评论