- 博客(2)
- 收藏
- 关注
原创 python爬虫-获取一本小说的全部内容
python版本3.6.3,并非最新版本是应为tensorflow并不支持3.7的python,因此降版本到了3.6.3. 操作系统macos 时间2018.10.9 import requests import os import io import sys import urllib import certifi import urllib3 from bs4 import Beautiful...
2018-10-10 04:44:43
595
原创 python程序(1)获取一个网页的所有中文字符
所有的中文字符都是在html的各种标签之中,因此我们需要拿到html的整个文件。为此我们导入requests库,再者,我们需要去除标签将全部内容进行文本化,此处是中英文都有的文本,为此我们引入beautifulsoup,因为get_text方法使得我们可以获取所有文本。然后我们在用正则表达式获取其中的中文信息再存入文件中。 对于requests和beautifulsoup的包的引入,可以在网上寻找...
2018-10-07 16:03:16
1181
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人