
全栈工程师开发手册 (作者:栾鹏)
其中使用到了urllib、BeautifulSoup爬虫和结巴中文分词的相关知识。
调试环境python3.6
# 根据连接爬取中文网站,获取标题、子连接、子连接数目、连接描述、中文分词列表,
import urllib
from bs4 import BeautifulSoup
import bs4
import jieba #对中文进行分词
# 分词时忽略下列词
ignorewords=[',','。','?','“','”','!',';',':','\n','、','-',',','.','?','\r\n','_',' ']
# 定义爬虫类。获取链接的题目、描述、分词、深度
class crawler:
def __init__(self,url):
self.url = url