Python练手项目0008

最新推荐文章于 2024-06-26 14:04:37 发布

g8015108

最新推荐文章于 2024-06-26 14:04:37 发布

阅读量404

点赞数

分类专栏： autoencoder 文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/g8015108/article/details/54288295

版权

autoencoder 专栏收录该内容

7 篇文章 1 订阅

订阅专栏

本项目采用的是https://github.com/Yixiaohan/show-me-the-code中所提供的练习项目，所有代码均为原创，转载请注明，谢谢。

问题描述：练习0008的问题是你有一个网页，需要将网页的正文提取出来。具体代码如下：

# -*- coding: utf-8 -*-
"""
Created on Mon Jan 09 13:10:54 2017

@author: sky
"""

import requests
from bs4 import BeautifulSoup
import codecs

url='http://www.baidu.com'
html=requests.get(url)

soup=BeautifulSoup(html.text)
a = soup.body.text.encode('GBK','ignore').decode('GBK')
b = a.encode('utf-8')
file = codecs.open('1.txt','w')
file.write(b)
file.close()

print a

注意：利用beautifulsoup可以进行简单的文字提取

但是提取出的结果为Unicode，需要用codercs进行转换

详细代码和结果，可以参考https://github.com/g8015108/exercise-for-python

Unicode可以参考http://www.cnblogs.com/jackge/archive/2013/06/04/3117352.html

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

g8015108 CSDN认证博客专家 CSDN认证企业博客

码龄10年

26: 原创

26万+: 周排名

198万+: 总排名

9万+: 访问

: 等级

983: 积分

9: 粉丝

31: 获赞

14: 评论

183: 收藏

私信

关注

热门文章

分类专栏

Python 15篇
autoencoder 7篇
编码 2篇
TensorFlow 3篇
机器学习 4篇
深度学习 7篇

最新评论

宽残差网络——WRN
Ashoreya: 想问下这个问题解决了吗
卷积自编码器
welovepan: 这个运行完应该有什么输出么？我的没有任何输出，也没有报错
基于伪标记的半监督学习方法
Forgengen: 请问是哪篇文章？？？
卷积自编码器
adafeng123456: 实例中用的loss='binary_crossentropy'损失函数，而给的公式是MSE啊。到底是哪个？
宽残差网络——WRN
qq_41531146: 你好，我想问一下一维卷积想进行宽度上的拓展，是不是直接给卷积核乘上k？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。