从零开始NLP生活
记录NLP应用场景、常见技术、踩坑经历、学习感悟等。
贫穷编码
人生需要不断尝试去界定舒适区的边界。没必要总是尝试突破,但也不能完全不突破,人生的发展是波动、循环、折叠的,而不是一条直线,所以一直努力或一直不努力都不是好的策略。
展开
-
pip install 使用国内清华镜像
今天在装gensim时发现直接用pip命令会非常慢,原因是连接到国外的URL下载非常慢,于是考虑使用国内的镜像。 pip install gensim 第一次使用镜像时报错 pip3 install --user gensim -ihttps://pypi.tuna.tsinghua.edu.cn/simple ERROR: Cannot unpack file C:\Users\mayn\AppData\Local\Temp\pip-unpack-_2t5hyrn\simple.html ..原创 2021-08-13 22:28:28 · 996 阅读 · 1 评论 -
Python 正则表达式 re.search regexp 提取文本中的邮箱地址
python 字符串处理,或者NLP项目预处理经常都会用到正则表达式。它是用来描述字符串模式的一种工具。在正常的表达或者特定的应用场景中,字符串都有一定的格式,否则人也没有办法理解,不会产生实际作用。 例如email我们可以用这个表达式来表示:'[\w.]+@\w+([.]\w+)+' 在Python的正则表达式中 \w 表示一切合法的字母和数字,+表示重复出现1次以上。 实际操作中Python提供了re这个模块用来处理正则表达式,其中 re.match 表示整个字符串是否满足一个patter.原创 2021-05-17 00:03:41 · 1143 阅读 · 0 评论