![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 66
记录学习中的一些问题与解决
李南北找东西
这个作者很懒,什么都没留下…
展开
-
spacy的安装与使用
处理管道:使用spacy时第一步是将文本字符串传递给nlp对象,这个对象本质上是由几个文本预处理操作组成的管道(如标记生成器、标签器、解析器、ner等)下载英文model:sm、md、lg分别表示三种大小的nlp模型,en_core_web_lg更精确,一般en_core_web_sm即可。通过依存句法分析提取出句子的语法结构,也可看做是一个有向图,图中的节点对应于句子中的单词,图中的边对应于单词间的对应依赖关系。实体是表示诸如个人、地点、组织等常见事物的信息的词或词组,即具有专有名称。原创 2023-04-06 00:20:42 · 453 阅读 · 0 评论 -
python内置模块用法笔记
dirpath是一个string,代表目录的路径,dirnames是一个list,包含了dirpath下所有子目录的名字。这些名字不包含路径信息,如果需要得到全路径,需要使用os.path.join(dirpath, name).主要用于文件的属性获取,exists是“存在”的意思,所以顾名思义,os.path.exists()就是判断括号里的文件是否存在的意思,括号内的可以是文件路径。分别为起始路径,起始路径下的文件夹,起始路径下的文件。常规用法:实现输出不换行。实现回车或者利用退格符。原创 2023-04-06 00:52:56 · 39 阅读 · 0 评论 -
python内置函数
用于将一个可遍历的数据对象(如列表、元组、字符串)组合为一个索引序列,同时列出数据和数据下标,一般用在for循环中。如果各个迭代器的元素个数不一致,则返回列表长度与最短的对象相同,利用 * 号操作符,可以将元组解压为列表。将可迭代的对象作为参数,将对象中对应的元素打包成一个个元组,然后返回由这些元组组成的列表。原创 2023-04-06 00:56:46 · 56 阅读 · 0 评论 -
selenium使用
记录学习爬虫时selenium的一些用法原创 2023-03-25 10:17:22 · 42 阅读 · 0 评论 -
pycharm问题与解决
项目场景:在pycharm中使用anaconda中创建的环境。原创 2023-04-05 20:03:26 · 69 阅读 · 1 评论 -
Mysql问题与解决记录
记录学习中遇到的问题与解决方案原创 2023-04-05 19:51:54 · 128 阅读 · 1 评论 -
正则表达式
学习爬虫时正则表达式的笔记原创 2023-04-05 19:58:50 · 86 阅读 · 0 评论 -
names-dataset的安装与使用
该库提供了名称相关的信息(人气排名、国别、性别),提取自脸书中的大量用户,包含730k名、983k姓。在pypi官网下载:https://pypi.org/project/names-dataset/,有问题,下载慢且多次中途请求失败。原创 2023-04-06 00:38:16 · 334 阅读 · 0 评论 -
JSON使用笔记
JSON是一种轻量级数据交换格式。原创 2023-04-06 00:05:46 · 34 阅读 · 0 评论