网页爬虫 python-python爬虫——爬取网页的中文

最新推荐文章于 2023-08-16 14:15:04 发布

weixin_37988176

最新推荐文章于 2023-08-16 14:15:04 发布

阅读量620

点赞数

# 爬取网页的中文内容

from urllib import request

from bs4 import BeautifulSoup

import pandas as pds

import xlrd

import docx

#读取excel

def excel(fname):

data=pds.read_excel(fname)

return data

def word(school ,content):

#创建内存中的word文档对象

file=docx.Document()

#写入若干段落

file.add_paragraph(content)

#保存

file.save("E:/大四上/毕业论文/招生简章/"+school+"招生简章.docx")

if __name__ == '__main__':

data=excel("C:/Users/Administrator/Desktop/招生简章.xlsx") #读初始数据

nrow=data.shape[0] #获取数据的行数

for i in range(0,nrow):

school = data.values[i][0]

url =data.values[i][1]

print("正在爬第"+str(i)+"个招生简章")

head = {}

# 使用代理

head['User-Agent'] = 'Mozilla/5.0 (Linux; Android 4.1.1; Nexus 7 Build/JRO03D) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.166 Safari/535.19'

req = request.Request(url, headers = head)

response = request.urlopen(req)

html = response.read()

# 创建request对象

soup = BeautifulSoup(html, 'lxml')

# 找出div中的内容

soup_text = soup.find(attrs={'class':'content'})

# 输出其中的文本

content = soup_text.text

word(school ,content)#写入word文档

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_37988176

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
网页爬虫 python-python爬虫——爬取网页的中文

# 爬取网页的中文内容from urllib import requestfrom bs4 import BeautifulSoupimport pandas as pdsimport xlrdimport docx#读取exceldef excel(fname):data=pds.read_excel(fname)return datadef word(school ,content):#创建内...
复制链接

扫一扫

爬虫之从网页抓取中文

weixin_43991027的博客

11-06

595

import urllib.request import re pth = '<div class="name">(.*?)</div>' # 正则表达式 data = urllib.request.urlopen('https://read.douban.com/provider/all').read() data = data.decode('utf-8') ...

python爬虫——爬取网页的中文

weixin_43213658的博客

12-28

2728

# 爬取网页的中文内容 from urllib import request from bs4 import BeautifulSoup import pandas as pds import xlrd import docx #读取excel def excel(fname): data=pds.read_excel(fname) return data...

参与评论您还未登录，请先登录后发表或查看评论

从零开始学爬虫系列2：下载小说的正确姿势

苏克的博客

05-05

513

1前言网路爬虫，一般爬取的东西无非也就四种：文字、图片、音乐、视频。这是明面上，能想到的东西，除了这些还有一些危险的操作，容易被请喝茶的，就不讨论了。咱们循序渐进，先谈谈如何下载文字内容...

爬取项目中的中文

zyz00000000的博客

02-24

515

前沿爬取项目中的中文核心思想在于通过脚本对项目文件进行遍历，通过文件名对文件进行筛选，读取筛选出的文件内容，查看文件内容中是否有符合的片段。其实重点在于正则表达式的使用，如何巧妙的使用正则表达式来获取文件中复杂的中文内容。 Node 请安装node，下载项目后，执行node install安装相关依赖项目源码地址：https://github.com/zhuyuzhu/getHanzi 执行命令爬取内容并生成Excel文件：node 脚本查找HTML中的文字： var fs = r

python网络爬虫实验一：文本反爬网站的分析和爬取

Jin4869的博客

11-29

687

Python网络爬虫实验一

精选_python爬虫--爬取网站中的多个网页_源码打包

03-12

本资源“精选_python爬虫--爬取网站中的多个网页_源码打包”提供了爬取网站多个网页的源码，帮助初学者或开发者更好地理解和实现网页爬取。在Python中，最常用的爬虫库是BeautifulSoup和Scrapy。BeautifulSoup库...

python爬虫-爬取火车票.zip

01-21

Python爬虫技术是数据获取的重要工具，特别是在网络信息丰富的今天，爬取火车票数据能帮助我们分析火车票的定价、余票、时段等信息。在这个项目中，我们将深入探讨如何利用Python实现火车票数据的爬取。首先，我们...

python爬虫-爬取豆瓣音乐

05-30

Python爬虫技术是数据获取的重要工具，特别是在网络信息丰富的今天，爬取网页数据成为数据分析、研究和应用的基础。本教程将聚焦于如何使用Python来爬取豆瓣音乐的相关信息，这涵盖了网页结构分析、HTTP请求、解析...

Python爬虫-爬取目标城市酒店数据

11-12

通过python爬虫采集城市的酒店数据内容概要：使用python采集酒店数据适用人群：做酒店数据市场调研，数据分析报告的人群使用场景及目标：需要依靠python3环境，执行爬虫脚本其他说明：需要使用开发者工具捕捉...

python爬虫python-financial.rar

最新发布

05-30

1. 财经新闻：Python爬虫可以定期爬取财经网站的新闻，分析市场动态，为投资者提供及时的信息。 2. 证券数据：爬虫可以从股票交易所、财经数据平台等获取实时或历史的股票价格、交易量等数据，帮助进行股票分析和...

【实践】python 提取网站里面的汉字

TaiBai_435_的博客

12-22

1485

提取网站里面的汉字 1、引入模块 requests（用于获取网站上的数据）；json（用于解析json数据） # coding=utf-8 import requests as r import json 2、写入到txt a+作为追加，不清空之前的数据 txt = open("data.txt", 'a+') 3、提取地址里面的数据到列表中 url = #url _json = json.loads(r.get(url).text) data = _json['data...

爬虫div下的中文怎么提取_想用爬虫获取自己的数据吗

weixin_39628160的博客

12-06

515

Scrapy是用纯Python实现的一个为了爬取网站数据、提取结构性数据的应用框架，用途非常广泛。通过定制开发几个模块我们就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。本文我们利用Scrapy获取某基金网站数据，为自己进行数据分析、挖掘甚至自己理财获得第一手矿。本文省略Scrapy的安装，可参照Scrapy的中文社区网站win7安装scrapy_Scrapy1.5中文文档_S...

python文字教程-Python 爬虫零基础教程(3):输出一个网页上的文字

weixin_37988176的博客

11-01

204

效果图：代码：# -*- coding: utf-8 -*-# Filename:print_text.py# 输出网页上的文字import reimport requestsuser_agent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_1)'headers = {'User-Agent':user_agent}url ='https://w...

爬虫div下的中文怎么提取_“简单粗暴”的R语言爬虫·其一

weixin_39784263的博客

12-03

484

其实离我刚接触网络爬虫的时候，已经过去了很久的时间了。借此机会，就当重新温习一下知识。对于网络爬虫，我也没有到达特别专业的程度，也只是满足自己在数据采集上的需求，所以如果有说得不对的地方，麻烦大家多多指出(〃'▽'〃)。一、网页小知识我们平时浏览的网页，形式多样，但其实都是由一系列网页语言编译而成的，而网页上的数据信息则被嵌套在编译语句之中。为了符合主题“简单粗暴的爬虫”，我们就不详细介绍网页那些...

python爬取网页的方法总结,python爬虫获取网页数据

神经网络爱好者

08-16

2873

大家好，小编来为大家解答以下问题，python爬取网页信息代码正确爬取不到，利用python爬取简单网页数据步骤，今天让我们一起来看看吧！

python爬取网页中文乱码。解决方案。python3

IT_Yl的博客

03-05

5339

```r = requests.get('http://www.xxxxxxxxxxxxxxx.html')print(r.text)```初次试写python爬虫爬取网页小说，在第一个网站的时候没问题第二个网站竟然中文乱码很是尴尬多方求助最后一语惊醒先 r.encoding = r.apparent_encoding # 解决中文乱码解码后再取text。结束...

python爬取网页汉字_程序小技巧：Python3借助requests类库3行代码爬取网页数据！快来...

weixin_39526185的博客

11-20

170

爬取网页数据是python很长干的一件事情，不过做起来基本上都是很冗长的一段代码，看起来复杂，不宜理解。今天给大家分享一个小诀窍，利用python3中的requests类库进行爬取网页数据。我们先看一哈用这个requests类库做的效果本节分享技术知识点：python导入三方类库的学习requests类库的简单使用爬取网页数据一、爬取网页数据实现代码# -*- coding:UTF-8 -*-im...

Python+requests 爬取网站遇到中文乱码怎么办？

weixin_30477797的博客

04-07

4745

分类： Python/Ruby 最近刚开始使用python来做爬虫爬取相关数据，使用了python自带的urllib和第三方库requests，解析html使用了beautifulsoup以及lxml 这里说下lxml，lxml是python的一个html、xml解析库，lxml使用XPath能快速，简单的定位元素并获取信息。下面进入正题注：Python3...

Python3-网页爬取-网页抓取汉字转码、多个参数拼接

zbrj12345的博客

04-12

1293

#网页抓取汉字转码、多个参数拼接 from urllib import request #将汉字转成unicode码 from urllib import parse # base_url='http://www.baidu.com/s?wd=' base_url='http://www.baidu.com/s?wd=' content=input('请输入你要搜索的内容：') # base...

python爬虫--房产数据爬取并保存本地

06-08

好的，我可以为您介绍一下如何使用 Python 爬虫来爬取房产数据并保存到本地。首先，您需要选择一个合适的网站来进行爬取。例如，可以选择链家网、安居客等房产网站。然后，您需要分析该网站的页面结构和数据请求...

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交