weixin_35057064-CSDN博客

原创 UDF小白入门

在PySpark中，使用UDF涉及有三个步骤：前置：先创建一个spark dataframe(1) 第一步是用Python语法创建一个函数并进行测试。

2024-04-15 20:49:37 329

原创 mac pycharm配置autopep8

(注意：如果参数配置不对，会报错=》 autopep8: error: unrecognized arguments: /Users/mac/P)

2023-10-24 19:52:30 800

它的大致流程就是首先假设k个高斯分布，然后判断每个样本符合各个分布的概率，将该样本划为概率最大的那个分布簇内，然后一轮后，进行更新我们的高斯分布参数，就会用到我们的极大似然估计，然后再基于新的分布去计算符合各个分布的概率，不断迭代更新，直至模型收敛达到局部最优解，常见的算法就是EM算法，它会同时估计出每个样本所属的簇类别以及每个簇的概率分布的参数。将所有的训练集样本建立了CF Tree，一个基本的BIRCH算法就完成了，对应的输出就是若干个CF节点，每个节点里的样本点就是一个聚类的簇。

2023-10-20 17:52:00 253

原创【error 踩坑】AttributeError: ‘DataFrame‘ object has no attribute ‘iteritems‘

原因：是安装pandas时未指定固定版本，导致安装了最新的2.0.3，2.0以上的版本不支持iteritems了，所以报错。解决方案：安装pandas时指定2.0以下的版本，如：1.1.5。新建了虚拟环境py38,安装pandas。接着使用spark向hive表中写数据。

2023-08-09 17:11:47 1352

原创 pandas读取CSV文件时出现警告：Columns (4) have mixed types. Specify dtype option on import or set low_memory

目前遇到pandas数据，可以读，有warning，但能读到数据，问题是数据结果有问题，影响了后续的数据分析，分析相关数据，得到如下结论，记录备查。

2023-07-27 13:34:46 272

原创 pandas dataframe一行变多行、一列变多列

【代码】pandas dataframe一行变多行、一列变多列。

2023-07-14 17:36:03 193

原创多标签分类

数据计划分（train、dev、test）：8:1：1。将criterion换成如下的criterion。阈值取0.3，即：大于0.3的认为正确。准确率（train）：0.96。准确率（dev）：0.8。基于以上代码进行调试。

2023-07-12 17:08:16 211

原创【踩坑记】pandas.errors.ParserError: Error tokenizing data. C error: EOF inside string starting at line x

由于很早之前一行出现了"xxx”,引号数量不匹配。修改read_csv中的quoting参数即可。使用pd.read_csv就会报错。使用以上代码，读取文件没有问题。

2023-07-03 19:37:30 132

原创 hive sql 分组随机取数

hive SQL 分组随机取数

2022-10-09 15:31:01 1674 1

原创【踩坑】mac连接airpods显示-连接被拒绝

问题：mac连接airpods显示“连接被拒绝”————————————原因：该airpods已经与其他apple设备连接过，所以与其他icloud账户绑定了，所以当前icloud账户（另一个账户）再想与其连接匹配就会出现“连接被拒绝”的问题。————————————解决：先清除另一个设备的绑定，然后重启airpods盒子，再打开mac蓝牙，进行airpods连接就可以了。...

2022-04-24 16:26:31 8209

原创【踩坑】ModuleNotFoundError: No module named ‘fused_layer_norm_cuda‘

在使用pytorch_pretrained_bert报错No module named ‘fused_layer_norm_cuda’，其实是apex的问题原因是安装apex时没有安装cuda版本，所以要sudo pip uninstall apex卸载(apex文件夹也一起删除)后，重新安装，具体安装步骤如下：git clone https://www.github.com/nvidia/apexcd apexsudo python setup.py install --cuda_ext --cp

2022-04-19 19:15:10 3700 5

原创提高国内访问 GitHub 的速度的方案

参考链接该博客中有9种方案，经尝试后获取两种方案1）GitHub 镜像访问github.com.cnpmjs.org也就是说上面的镜像就是一个克隆版的 GitHub，你可以访问上面的镜像网站，网站的内容跟 GitHub 是完整同步的镜像，然后在这个网站里面进行下载克隆等操作。2）通过 Gitee 中转 fork 仓库下载a. 访问 gitee 网站：https://gitee.com/ 并登录，在顶部选择“从 GitHub/GitLab 导入仓库”b. 在导入页面中粘贴你的Github仓库地

2021-12-13 14:01:06 187

原创谷歌浏览器Chrome不能登录不能同步解决方法

参考链接：参考1参考21、下载一个chrome插件，链接：点击下载插件密码：p0kc2、将下载的.CRX格式的插件修改成.zip（或.rar)格式的文件。3、对该zip文件解压缩，得到一个文件夹。（打开文件夹，有一个_metadata的文件夹，去掉下划线，将文件名改为metadata。）4、在谷歌浏览器里–更多工具–扩展程序–开启开发者选项–加载已解压的扩展程序–打开我们解压后的文件夹上传【Chrome-Sync-Helper】（如果有风险提示也忽略继续确认）【上传成功后就会出现你的插件。】

2021-12-13 13:52:51 9558 15

原创 course1:Introduction； Machine Learning for Graphs

第一次课

2021-07-20 19:52:59 59

原创爬取百度百科信息

本文参考链接：爬百科安裝Mongodb具体步骤：（1）安装mongodb（windows）1）Mongodb官网下载文件2）双击安装点击 “Custom(自定义)” 按钮来设置你的安装目录，next，然后安装 “Install MongoDB Compass” 不够勾选3）配置首先要在MongoDB的data文件夹里新建一个db文件夹和一个log文件夹然后在log文件夹下新建一个mongo.log：然后将E:\MongoDB\bin添加到环境变量path中，此时打开cmd窗口运行

2021-01-14 12:00:59 629

原创 pytorch：out of Memory 问题以及pytorch训练时卡死问题

1 ）pytorch：out of Memory 问题“RuntimeError: CUDA out of memory. Tried to allocate 10.54 GiB (GPU 0;31.72…”此问题在我调小了batch_size后得到解决2 ）pytorch训练时卡死问题参考链接此问题在我将dataloader中的work_threads调小后解决。...

2020-12-15 20:27:16 775

转载如何免费下载IEEE的论文

参考链接：原文链接1.打开IEEE网站，在搜索栏里搜你想要的文章。（如下图）2,在网址上添加 .sci-hub.tw3.打开后就可以直接下载了。美滋滋。

2020-09-07 15:19:51 879

原创 pip install时出现的错误：UnicodeDecodeError: ‘ascii‘ codec can‘t decode byte 0xe2 in position 1112: ordinal

安装hanlp时出现编码的错误： File "/usr/lib/python3.5/encodings/ascii.py", line 26, in decode return codecs.ascii_decode(input, self.errors)[0] UnicodeDecodeError: 'ascii' codec can't decode byte 0xe2 in position 1112: ordinal not in range(128)查了错误后，得到一

2020-07-07 11:50:54 1001

原创记录下这几个读csv文件出现的错误

错误1：ParserError: Error tokenizing data. C error: Expected 1 fields in line 7, saw 3错误2：ParserError: Error tokenizing data. C error: EOF inside string starting at row 15946这两个错误都可以通过加入quoting=csv.QUOTE_NONE来解决。代码如下：出错代码：import pandas as pdimport csv

2020-05-26 20:35:02 606

原创词汇挖掘和新词发现

参考链接：《互联网时代的社会语言学：基于SNS的文本数据挖掘》python简单实现新词发现实现的模块主要分为四个部分：从文章中提取所有可能出现的候选词。计算每一个词的聚合度。计算每一个词的左临熵和右临熵，即:自由度。通过聚合度和左右临熵的分值组合来对一个候选词进行打分。下面苏神的改进方案：使得新词发现的计算量大大降低【中文分词系列】 2. 基于切分的新词发现基于今日头条开源数据的文本挖掘分享一次专业领域词汇的无监督挖掘(电力)从文本中自动提取关键词和摘要...

2020-05-22 13:34:07 459

翻译 python -gensim-LDA

参考链接：主题模型 LDA 理论1主题模型 LDA 理论2用geinsim训练LDA代码目标：识别在文档里的主题，并且挖掘语料里隐藏信息方法思想：LDA 是一种矩阵分解技术，在向量空间中，向最大化类间差异、最小化类内差异的方向线性投影。结果：可以得到主题中最重要的主题词；能够识别在文档里的主题。...

2020-05-14 19:29:52 475 1

转载生成式模型和判别式模型的区别是什么？

这是去年面某家公司时，被问到的问题。今天突然想起来，看了一下。觉得这个博客写的不错，记录一下。参考链接：https://www.zhihu.com/question/20446337核心思想：在机器学习中任务是从属性X预测标记Y，判别模型求的是P(Y|X)，即后验概率；而生成模型最后求的是P(X,Y)，即联合概率。从本质上来说：判别模型之所以称为“判别”模型，是因为其根据X“判别”Y；而生成模型之所以称为“生成”模型，是因为其预测的根据是联合概率P(X,Y)，而联合概率可以理解为“生成”

2020-05-14 14:21:36 530

转载斯坦福python中文分词stanza

原文链接：斯坦福工具

2020-04-16 20:36:19 578

转载 pytorch的安装-中科大源

试了好几个，这个最靠谱。必须记录一下。原文链接：中科大镜像安装pytorch步骤1:1添加镜像conda config --add channels https://mirrors.ustc.edu.cn/anaconda/pkgs/free/conda config --set show_channel_urls yes2然后去官方找你对应的cuda版本去下载，例如# con...

2020-04-16 17:17:38 8800 2

原创根据多个点画最下外接圆，得到半径

# coding: utf-8import cv2import numpy as npcnt = np.array([[1, 0], [2, 1], [0, 1], [1, 2]]) # 必须是array数组的形式(x, y), radius = cv2.minEnclosingCircle(cnt)#最小外接圆print(x, y, radius)...

2020-04-10 19:15:06 491

原创 mac使用中的相关工具安装

整理mac工具安装中相关参考链接：1.高效mac工作环境配置超燃！高效 MacBook 工作环境配置，超实用！2.AIfred使用方法总是在 Mac 「装机必备」看到的搜索利器 Alfred，究竟是怎么用的？| 新手问号mac 中 Alfred3 的使用 …3.tips很多App Store中的软件过于旧了，建议从官网下载...

2020-03-07 16:24:05 74

原创 word中粘贴代码的使用小工具

想在word中插入漂亮的代码，只需使用这个网站就可以实现http://www.planetb.ca/syntax-highlight-word个人觉得十分好用操作仅需三步：1）打开这个网页，复制你的代码2）将代码粘在这个方框3）选择代码对应的语言，点击下方按钮【Show Highlighted】，然后复制文本框中的代码，粘贴在word中即可...

2020-02-21 14:37:54 537

转载 txt转excel-python

原创地址：https://blog.csdn.net/levy_cui/article/details/82252183# !/usr/bin/python# -*- coding: utf-8 -*-# 创建时间： 2020/1/3 14:33# ---------------------------------------------------------------------...

2020-01-03 14:43:55 134

转载 xpath如何取包含多个class属性

参考链接：https://blog.csdn.net/qq_34627002/article/details/83309209

2019-12-03 13:20:42 1188

原创字符串拼接的url无法访问，打印出来却看不出差异

访问网页时，通过拼接字符串得到的url，无法访问，但打印出来看不出任何差异，如下图所示：经检查后发现： print(url) #将对象转化为供解释器读取的形式。 print(repr(url)) url1 = "https://aomen.8684.cn/list1" print(url1)通过repr()打印出来的结果包含有特殊字符：去掉特殊字符后即可访问...

2019-11-28 14:35:26 293 1

转载 macbook brew安装慢的问题

之前安装，一直失败。参考了如下链接后成功，感谢。链接：https://blog.csdn.net/yilovexing/article/details/95043434重点：打开文件将默认的 BREW_REPOBREW_REPO = "https://github.com/Homebrew/brew".freeze修改为：BREW_REPO = "git://mirrors.ustc....

2019-11-09 16:09:55 138

转载 python中安装ahocorasick库

原文链接：https://blog.csdn.net/weixin_34613450/article/details/89316569刚开始安装使用了：pip install ahocorasick和pip install pyahocorasick都不行最后参照了上述链接中的方法，安装成功。...

2019-10-29 19:26:03 3283

原创论文阅读---ERNIE: Enhanced Language Representation with Informative Entities

自然语言表征模型最近受到非常多的关注，很多研究者将其视为 NLP 最重要的研究方向之一。例如在大规模语料库上预训练的 BERT，它可以从纯文本中很好地捕捉丰富的语义模式，经过微调后可以持续改善不同 NLP 任务的性能。因此，我们获取 BERT 隐藏层表征后，可用于提升自己任务的性能。但是，已有的预训练语言模型很少考虑知识信息，具体而言即知识图谱（knowledge graphs，KG），知识图谱...

2019-09-20 15:01:20 513

原创写json文件的中文乱码及缩进问题

with open(r'E:\data\gs_data\hot_sight_data_2019830.json', 'a',encoding="utf-8") as f: json.dump(poi_result, f,ensure_ascii=False,indent=4) f.write("\n")加...

2019-09-18 11:09:07 720 2

转载 Windows下中文维基百科语料上的Word2Vec

本文是参照原文：https://zhuanlan.zhihu.com/p/28643244之后发现一些问题，对操作过程记录。实验环境： Windows 10 pro （64位）所用代码为Python3*用到的python包有：gensim, jieba1.下载中文维基百科数据与预处理首先下载数据。下载地址：https://dumps.wikimedia.org/zhwiki/latest...

2019-07-18 19:33:17 239

weixin_35057064的博客