python summary_Python网页内容提取库总结

0109cecaf20ac04340f9fab99724886b.png

简介

以下介绍的库均为从网页中自动解析想要的内容,从而解放了需要每个网站都要正则匹配或者xpath的超大工作量。

一、lassie:人性化的网页内容检索库

安装

pip3 install lassie

使用:

import lassielassie.fetch('http://www.thepipefittings.com/compression-fittings.html')

输入:

{'images': [{'src': 'http://www.thepipefittings.com/favicon.ico',   'type': 'favicon'}], 'videos': [], 'url': 'http://www.thepipefittings.com/compression-fittings.html', 'title': 'Compression Fittings,Manipulative Compression Fittings,Brass Compression Fittings,Compression Fittings Suppliers', 'status_code': 200}

二、newspaper:新闻内容爬虫专用包

安装:

pip3 install newspaper3k

需要安装的是newspaper3k而不是newspaper,因为newspaper是python 2的安装包,pip install
newspaper 无法正常安装,请用python 3对应的 pip install newspaper3k正确安装。

使用:

from newspaper import Article# import nltk# nltk.download('punkt')url = 'http://www.thepipefittings.com/compression-fittings.html'article = Article(url) # Chinesearticle.download()article.parse()article.nlp()print(article.text)

三、goose3: HTML 内容/文章提取器(python3)

安装:

pip3 install goose3

使用:

from goose3 import Gooseurl = 'http://www.thepipefittings.com/compression-fittings.html'g = Goose()article = g.extract(url=url)article.title# article.meta_description# article.cleaned_text[:]

输入:

'Compression Fittings,Manipulative Compression Fittings,Brass Compression Fittings,Compression Fittings Suppliers'

四、python-readability:arc90 公司 readability 工具的 Python 高速端口

安装:

pip3 install readability-lxml

使用:

import requestsfrom readability import Document url = 'https://www.pipingengineer.org/piping-materials-buttweld-fittings/'html = requests.get(url).contentdoc = Document(html)print('title:', doc.title())print('content:', doc.summary(html_partial=True))

输出:

title: Not Acceptable!content: 

Not Acceptable!

An appropriate representation of the requested resource could not be found on this server. This error was generated by Mod_Security.

五、textract:从任何格式的文档中提取文本,Word,PowerPoint,PDFs 等等

安装

pip3 install textract

使用:

import textracttext = textract.process("xxx.pdf") #换成你自己本地的pdfprint(text.decode('utf-8'))
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
提取Python模型的训练集loss,你需要在训练代码添加代码来记录每个训练步骤的loss。具体来说,你可以使用TensorFlow或PyTorch等框架提供的内置功能来记录每个训练步骤的loss。 在TensorFlow,你可以使用`tf.keras.callbacks.TensorBoard`回调来记录和可视化训练过程的loss。在PyTorch,你可以使用`torch.utils.tensorboard.SummaryWriter`类来记录和可视化训练过程的loss。 一旦你记录了每个训练步骤的loss,你可以通过简单的代码将其提取出来并保存到文件。以下是一个示例代码,用于从TensorFlow模型的训练日志提取loss并将其保存到文件: ```python import tensorflow as tf # 加载TensorBoard的日志文件 log_dir = '/path/to/tensorboard/logs' train_log_dir = log_dir + '/train' train_summary_writer = tf.summary.create_file_writer(train_log_dir) # 定义TensorBoard回调 tensorboard_callback = tf.keras.callbacks.TensorBoard( log_dir=log_dir, update_freq='batch', histogram_freq=1, write_graph=True, write_images=True, profile_batch=0, ) # 训练模型并记录每个训练步骤的loss model.fit( x_train, y_train, epochs=10, batch_size=32, callbacks=[tensorboard_callback] ) # 从TensorBoard日志提取loss并保存到文件 with train_summary_writer.as_default(): for step, summary in enumerate(tf.compat.v1.summary.all_v2_summary_ops()): if 'loss' in summary.tag: tf.summary.scalar('loss', summary.simple_value, step=step) ``` 这将从TensorBoard的训练日志提取所有带有"loss"标签的摘要,并将其保存到文件。你可以根据需要修改此代码以满足你的需求。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值