php爬取网页中div i下文本,爬取网页中的文章写成本地txt文件

最新推荐文章于 2021-12-19 12:22:13 发布

火君

最新推荐文章于 2021-12-19 12:22:13 发布

阅读量292

点赞数

文章标签： php爬取网页中div i下文本

之前看了周浩晖的一下小说，包括邪恶催眠师系列，这个系列已经到了第三季但是网上好像没找到txt文件。只找到下方网页中的文章，网页看小说不是很方便，所以决定爬下来做成txt文件放在手机中看。

http://www.txt99.com/read/12/20831/1.html

技术点：

BeautifulSoup、urllib2

直接上代码

#!/usr/bin/env python

# -*-coding:utf-8-*-

from bs4 import BeautifulSoup

import html5lib

import urllib2

import sys

import codecs

strall='';

reload(sys)

sys.setdefaultencoding('utf-8')

for i in range(1,34):

urls=str('http://www.txt99.com/read/12/20831/') +str(i) +str('.html')

html=urllib2.urlopen(urls)

htmldata=html.read()

soup=BeautifulSoup(htmldata,'html.parser',from_encoding="gb18030") #这个网页是gb2312编码，所以要转一下

#view_content_txt

titleData=soup.find ('div',id='view_content_txt')

ss=str(unicode(titleData))

lists=ss.split('

lings=str(lists[1])

lists2=lings.split('

print str(lists2[0])

strall+=str(lists2[0])

def writtetxt(content):

f = codecs.open('f:/python/1.txt', 'w', 'utf-8') #将拼接的字符串写到txt文件中

f.write(content)

# print titleData

writtetxt(strall)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

火君

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

[Python从零到壹] 七.网络爬虫之Requests爬取作者个人博客网站及CSV存储

杨秀璋的专栏

02-25

1万+

前一篇文章讲述了 BeautifulSoup 爬取豆瓣TOP250电影，通过案例的方式让大家熟悉Python网络爬虫。这篇文章将详细讲解Requests库爬取个人博客信息，并存储至CSV文件。该案例非常适合入门的案例，也能普及简单的预处理知识。希望对您有所帮助，本文参考了作者CSDN的文章和学生杨友的博客，从学生的角度实现网络爬虫，可能对读者更友好。

[Python从零到壹] 十.网络爬虫之Selenium爬取在线百科知识万字详解（NLP语料构造必备技能）

杨秀璋的专栏

06-23

8255

欢迎大家来到“Python从零到壹”，在这里我将分享约200篇Python系列文章，带大家一起去学习和玩耍，看看Python这个有趣的世界。前一篇文章讲述了Selenium基础技术，涉及基础入门、元素定位、常用方法和属性、鼠标操作、键盘操作和导航控制。本文将结合具体实例进行深入地分析，通过三个基于Selenium技术的爬虫，爬取Wikipedia、百度百科和互动百科消息盒的例子，从实际应用出发来学习利用。基础性文章，希望对您有所帮助。

参与评论您还未登录，请先登录后发表或查看评论

05-20

chamtianjiao的专栏

01-18

1万+

<br />1. 取得指定網頁內的所有圖片：測試開新視窗複製代碼列印?<?php //取得指定位址的內容，並儲存至text $text=file_get_contents('http://andy.diimii.com/'); //取得所有img標籤，並儲存至二維陣列match preg_match_all('#<img[^>]*>#i', $text, $match); //印出match print_r($match); ?> <?php //取得指定位址的內容

php获取网页中图片、DIV内容的简单方法

10-25

主要介绍了php获取网页中图片、DIV内容的简单方法,都是通过正则表达式实现的,强大的正则啊,需要的朋友可以参考下

分享自用的php爬取网页，读取、写入txt语句

weixin_44494993的博客

12-19

499

emmm，今天来分享自己常用的php语句，关于txt文本的读取和写入！老鸟直接飞过首先来发读取的代码 $file_path = "content.txt"; //判断是否有这个文件 if(file_exists($file_path)){ $fp = fopen($file_path,"r"); $str = fread($fp,filesize($file_path));//指定读取大小，这里把整个文件内容读取出来 //关闭文件读取 fclose($fp); } 然后我们就可以操作内容了,$str为我

php获取div下的文本,php获取网页中图片、DIV内容的简单方法

weixin_39940755的博客

03-09

201

1、获取网页中所有的图片：//取得指定位址的內容，并储存至 $text$text=file_get_contents('https://www.jb51.net/');//取得所有img标签，并储存至二维数组 $match 中preg_match_all('/]*>/i', $text, $match); //打印出matchprint_r($match);?>2、获取网页中的第一...

jsoup 获取html中body内容_jsoup实现java抓取网页内容

weixin_39614521的博客

12-22

810

jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。jsoup的主要功能如下：1. 从一个URL，文件或字符串中解析HTML；2. 使用DOM或CSS选择器来查找、取出数据；3. 可操作HTML元素、属性、文本；jsoup是基于MIT协议发布的，可放心使用于商业...

PHP爬虫微博某个话题的所有内容,GitHub - wansho/sina_weibo_crawl: 爬取新浪微博某一话题的数据，可以替代微博搜索接口...

weixin_33138295的博客

03-27

1217

[TOC]Introduction最近需要新浪微博的数据做研究，苦于找不到满意的数据，新浪微博的API对数据的获取有限制，也找不到合适的爬虫代码，遂自己实现了一个爬取新浪微博的爬虫。爬取的数据是新浪微博搜索某一个话题，得到的微博数据，下面是爬取到的有关苹果手机的微博示例：之前也爬取过豆瓣电影短评，但是好久没有再练手了，发现遗忘了很多知识点，加上新浪微博对爬虫的嗅觉异常灵敏，导致中间遇到了非常...

python网络爬虫学习笔记（5）静态网页抓取（二）实践

user_987654321的博客

05-31

635

获取豆瓣读书top250标题的爬虫，粗略判断静态网页与否，robots.txt复习与拓展（Sitemap），BeautifulSoup库的soup.a.text.strip()

PHP实现TXT纯文本文件转HTML网页文件自动加入标签

10-05

平常写文章都是TXT的纯文本文件，如果希望把它们都变成自动加入标签的html文件，虽然朋很多工具可以实现，但不够理想，所以写了这个程序。代码中1.txt就是当前目录中的纯文本文件。

爬虫div下的中文怎么提取_想用爬虫获取自己的数据吗

weixin_39628160的博客

12-06

540

Scrapy是用纯Python实现的一个为了爬取网站数据、提取结构性数据的应用框架，用途非常广泛。通过定制开发几个模块我们就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。本文我们利用Scrapy获取某基金网站数据，为自己进行数据分析、挖掘甚至自己理财获得第一手矿。本文省略Scrapy的安装，可参照Scrapy的中文社区网站win7安装scrapy_Scrapy1.5中文文档_S...

php提取公用html模版,从采用div类PHP提取的所有内容（包括HTML）(Extract all content (inc...

weixin_42360993的博客

07-16

247

例如HTML ...Header ContentSome text (Most likely will contain lots of HTML我需要HTML的页面转换成HTML页面的模板化版本。 HTML网页是由几箱，每一个报头(在上述代码为“rsheader” refered到)和一些文本(在上述代码为“rstext” refered到)。我试着写一个PHP脚本也许使用的file_get_c...

php获取div下的文本,php切割页面div内容的实现代码分享

weixin_29952601的博客

03-09

217

今天在百度知道看到一个关于php获取DIV内容的问题，做了一晚，终于是做出来了亮点：1、利用php也能实现对页面div的切割处理。这里的做法抛砖引玉，希望读者能够提供更加完美的解决方案。2、切割处理方法已经封装成一个方法，可以直接引用。3、顺便加上标签云的截取。//getWebDiv('id="taglist"','//www.jb51.net/tag/');header("Content-typ...

php 爬虫的简单实现，获取整个页面，再把页面的数据导入本地的文件当中

廖圣平

08-17

3179

$curlobj = curl_init(); //创建一个curl 的资源，下面要用的 curl_setopt($curlobj,CURLOPT_URL,"http://www.baidu.com"); //获取资源 curl_setopt($curlobj,CURLOPT_RETURNTRANSFER,true); //请求结果不直接打印 $output = curl_exec($cu

PHP爬取网页内容并存放至项目文件中

Abel_JiaWei的博客

04-17

1051

//抓取页面 function curl_info(){ $s=$this->curl_video_thumb($video_url['video_url']); $css_zheng_ze = "/<META\s+property=\"og:image\"\s+content=\"([\w\W]*?)\"/si"; preg_match($css_...

Python爬虫教程：简书文章的抓取与存储

weixin_34354173的博客

11-09

415

本文内容将与大家一起从简书的文章页面抓取文章标题、作者、发布时间以及正文内容，并且将抓取到的这些信息存入Excel表格中。本文对简书文章的抓取仅为Python的学习交流，尊重作者著作权，不对抓取到的文章做其他用途。本文使用Chrome浏览器对页面中需要抓取的内容进行分析。首先我们从简书首页点开一篇文章。现在我们来从页面中提取文章标题信息。按下F12进入开发者模式，即下图中下方区域。点击图中第1处红...

php爬虫小说网站源码,基于php的cli模式小说爬虫案例

weixin_33469623的博客

03-09

987

一、源文件包含4个部分1.使用说明文档.rar2.小说源文件.rar3.cli.rar4.cmder_mini.zip如下：其中cli.rar文件如下php文件是源码文件二、系统的安装与使用系统的安装1.小说源文件.rar 解压后上传到网站根目录下，或者在本地搭建网站服务器也可以，通过域名+页面文件可以打开页面即可(建议在本地配置，方便测试研究)，如下图所示2.cli.rar解压后放...

如何使用python爬取网页文本到excle中