![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
参考
love_ccccy
这个作者很懒,什么都没留下…
展开
-
利用jieba对已爬取好的中国地名信息进行分词
import jiebaimport pandas as pdimport os定义一个获取分词结果的函数,以列表形式返回:def get_jieba_output(corpus_dataframe): word_set=[] # 空列表 for i in corpus_dataframe[0]: # 因为地名信息是数据框的第一列 obj_list = i...原创 2019-10-15 09:58:35 · 2737 阅读 · 0 评论 -
Requests包的基础
首先 Requests 库基本方法介绍方法requests.request() :构造一个请求,支撑一下各方法的基础方法requests.get() :获取HTML网页的主要方法,对应于HTTP的GETrequests.head() :获取HTML网页头信息的方法,对应于HTTP的HEADrequests.post() :向HTML网页提交POST请求的方法,对应于HTT...原创 2019-10-31 18:23:12 · 832 阅读 · 0 评论 -
BS4文档
将一段字符串或一个文件句柄传入BeautifulSoup的构造方法,就能得到一个BeautifulSoup文档对象(** 复杂的树形结构 **)。对象的种类树形结构里,每个节点都是Python对象,所有对象可以归纳为4种:Tag,NavigableString,BeautifulSoup,CommentTagTag对象与XML或HTML原生文档中的tag相同。Tag有很多属性(遍历文档...原创 2019-07-15 15:43:40 · 774 阅读 · 0 评论