Embedding 向量生成GPT数据使用相关

如果使用python3.6的版本,使用pycharm创建工程,那么默认会使用 docx包,这样运行程序会爆异常,突然想起以前请教的一个大神,想当 初,这个问题困扰了我 两天时间,在此记录一下:

python-docx

一直报这个错误:

解决办法: 

修改注册表信息
参考:https://github.com/pypa/pip/issues/7424#issuecomment-589675343 和
http://www.noobyard.com/article/p-shumspjw-vm.html

Step 1:
Press Win+R to open Run, type in “regedit” and click OK.
Step 2:
Move to HKEY_CURRENT_USER/Software/Microsoft/Windows/Current Version/Internet Settings.
Step 3:
Find a file with the name ‘ProxyServer’ and 将值修改为0.
注意:修改为0之后就不能使用代理科学上网了,下载好包之后,可以再改成1。
 

 

 

 

 

代码 头部网络代理 使用示例: 

 pip install pinecone-client

 pip install flask -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com

 

python记事本:

pip install xxx   --user  会安装到系统的python里面 而不是 anaconda里面的python。别用

安装库时候后面加   -i https://pypi.tuna.tsinghua.edu.cn/simple   可以使用清华源

如果报:

就将注册表的  计算机\HKEY_CURRENT_USER\Software\Microsoft\Windows\CurrentVersion\Internet Settings

里面的 ProxyEnable  代理值先 改为0,实际运行代码时候再改回去!

最后 项目环境中拥有的模块列表:(不一定全用到。)

pip list --format=columns

Package                      Version
---------------------------- ---------
absl-py                      1.4.0
aiohttp                      3.8.5
aiosignal                    1.3.1
astunparse                   1.6.3
async-timeout                4.0.3
attrs                        23.1.0
blinker                      1.6.2
cachetools                   5.3.1
certifi                      2023.7.22
charset-normalizer           3.2.0
click                        8.1.3
colorama                     0.4.6
dnspython                    2.4.2
docx                         0.2.4
filelock                     3.12.2
Flask                        2.3.2
flatbuffers                  23.5.26
frozenlist                   1.4.0
fsspec                       2023.6.0
gast                         0.4.0
google-auth                  2.22.0
google-auth-oauthlib         1.0.0
google-pasta                 0.2.0
grpcio                       1.57.0
h5py                         3.9.0
huggingface-hub              0.16.4
idna                         3.4
importlib-metadata           6.8.0
itsdangerous                 2.1.2
Jinja2                       3.1.2
joblib                       1.3.2
keras                        2.13.1
libclang                     16.0.6
loguru                       0.7.0
lxml                         4.9.3
Markdown                     3.4.4
MarkupSafe                   2.1.3
mpmath                       1.3.0
multidict                    6.0.4
networkx                     3.1
numpy                        1.24.3
oauthlib                     3.2.2
openai                       0.27.8
opt-einsum                   3.3.0
packaging                    23.1
pandas                       2.0.3
Pillow                       10.0.0
pinecone-client              2.2.2
pip                          23.2.1
protobuf                     4.24.1
pyasn1                       0.5.0
pyasn1-modules               0.3.0
python-dateutil              2.8.2
python-docx                  0.8.11
pytz                         2023.3
PyYAML                       6.0.1
regex                        2023.8.8
requests                     2.31.0
requests-oauthlib            1.3.1
rsa                          4.9
safetensors                  0.3.2
scikit-learn                 1.3.0
scipy                        1.10.1
setuptools                   68.0.0
six                          1.16.0
sklearn                      0.0.post7
sympy                        1.12
tensorboard                  2.13.0
tensorboard-data-server      0.7.1
tensorflow                   2.13.0
tensorflow-estimator         2.13.0
tensorflow-intel             2.13.0
tensorflow-io-gcs-filesystem 0.31.0
termcolor                    2.3.0
threadpoolctl                3.2.0
tokenizers                   0.13.3
torch                        2.0.1
tqdm                         4.66.1
transformers                 4.31.0
typing_extensions            4.5.0
tzdata                       2023.3
urllib3                      1.26.16
Werkzeug                     2.3.7
wheel                        0.38.4
win32-setctime               1.1.0
wrapt                        1.15.0
yarl                         1.9.2
zipp                         3.16.2

在cookbook里的数据集中,我们可以看到嵌入图示,嵌入在机器学习和自然语言处理中是一种表示离散变量(如单词、句子或整个文档)的方式,通常是作为高维向量或者矩阵。嵌入的目标是捕捉到输入数据中的语义信息,使得语义相近的元素在嵌入空间中的距离也比较近。 具体到GPT(Generative Pre-trained Transformer)模型的嵌入,它是一种用于自然语言处理的预训练模型,通过学习大量的文本数据生成文本序列。GPT模型使用了Transformer架构,并且在预训练阶段进行了语言模型的训练。对于GPT模型的嵌入,它会将输入的文本序列映射到一个高维向量空间中的表示。这个嵌入向量可以捕捉到文本序列之间的语义和语法关系。 通过GPT模型的嵌入,我们可以进行一些有趣的语义推理。例如,我们可以通过向量运算来表示一些特定的关系。举个例子,我们可以计算"king" - "man" + "woman"的嵌入向量,结果接近于"queen"的嵌入向量,这表明GPT模型通过学习文本数据,能够捕捉到这种王室称号的关系。 总结来说,GPT嵌入是一种通过预训练模型,将文本序列映射到高维向量空间的表示方法,它可以捕捉到文本之间的语义和语法关系,从而实现一些有趣的语义推理。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [GPT学习笔记-Embedding的降维与2D,3D可视化](https://blog.csdn.net/woohooli/article/details/130898211)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值