李煜嫣的小二哈-CSDN博客

原创 python爬虫-获取一本小说的全部内容

python版本3.6.3，并非最新版本是应为tensorflow并不支持3.7的python，因此降版本到了3.6.3. 操作系统macos 时间2018.10.9 import requests import os import io import sys import urllib import certifi import urllib3 from bs4 import Beautiful...

2018-10-10 04:44:43 595

原创 python程序（1）获取一个网页的所有中文字符

所有的中文字符都是在html的各种标签之中，因此我们需要拿到html的整个文件。为此我们导入requests库，再者，我们需要去除标签将全部内容进行文本化，此处是中英文都有的文本，为此我们引入beautifulsoup，因为get_text方法使得我们可以获取所有文本。然后我们在用正则表达式获取其中的中文信息再存入文件中。对于requests和beautifulsoup的包的引入，可以在网上寻找...

2018-10-07 16:03:16 1181

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人