爬取校园网新闻首页的新闻

最新推荐文章于 2021-02-13 18:19:07 发布

weixin_30412577

最新推荐文章于 2021-02-13 18:19:07 发布

阅读量102

点赞数

原文链接：http://www.cnblogs.com/xichenmm/p/8710150.html

版权

import requests from bs4 import BeautifulSoup

url="http://news.gzcc.cn/html/xiaoyuanxinwen/"

res=requests.get(url) res.encoding="utf-8"

soup=BeautifulSoup(res.text,'html.parser') # for news in soup.select('li'): #

if len(news.select('.news-list-title')) >0: #

print(news.select('.news-list-title'))

for newc in soup.select('li'):

if len(newc.select('.news-list-title'))>0:

d=newc.select('a')[0].attrs['href']

res1=requests.get(d)

res1.encoding="utf-8"

e=BeautifulSoup(res1.text,'html.parser')

content=e.select('#content')[0].text

show=e.select('.show-info')[0].text

print(content,show)

转载于:https://www.cnblogs.com/xichenmm/p/8710150.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30412577

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

爬取学校新闻网站信息

coca的博客

03-24

1189

# -*- coding:UTF-8 -*- import requests from bs4 import BeautifulSoup import json import urllib import request if __name__ == "__main__": server = 'http://www.jit.edu.cn/' url = 'http://www.j...

python爬取校园新闻

qq_30139091的博客

12-22

681

from bs4 import BeautifulSoup from urllib.parse import urljoin import urllib.request import urllib.parse class Spider(object): #获取1到10页源码 def main(self): # urls = [] for i in range(1, 10): url='https://www.jhc.cn/4548/l

参与评论您还未登录，请先登录后发表或查看评论

爬取校园新闻首页的新闻

weixin_33861800的博客

04-04

125

1. 用requests库和BeautifulSoup库，爬取校园新闻首页新闻的标题、链接、正文、show-info。 2. 分析info字符串，获取每篇新闻的发布时间，作者，来源，摄影等信息。 import requests import string newsurl='http://news.gzcc.cn/html/xiaoyuanxinwen/' res = reques...

爬取校园网新闻

weixin_30399871的博客

10-12

261

1.获取单条新闻的#标题#链接#时间#来源#内容 #点击次数，并包装成一个函数。 2.获取一个新闻列表页的所有新闻的上述详情，并包装成一个函数。 3.获取所有新闻列表页的网址，调用上述函数。 4.完成所有校园新闻的爬取工作。 import requests from bs4 import BeautifulSoup from datetime import datetim...

scrapy 爬取中北大学校园新闻

11-12

此代码采用通用scrapy 框架爬取了中北大学的校园新闻/适合新手入门练习SCRAPY 的使用，希望能够对你的学习有所帮助， <li><a href="../info/1014/12557.htm#tips" target="_blank" title="关于组织2019年度正高级...

java爬虫抓取校园新闻_爬取全部的校园新闻

weixin_42366533的博客

02-13

447

爬取全部的校园新闻1.从新闻url获取新闻详情：字典,anews代码如下：1 importrequests2 from bs4 importBeautifulSoup3 from datetime importdatetime4 importre56 defclick(url):7 id = re.findall('(\d{1,5})',url)[-1]#返回所有匹配的字符串的字符串列表...

校园网新闻站内搜索引擎

02-23

校园网新闻站内搜索引擎实现思路：将校园网的全部新闻爬取下来，存储到MySQL数据库，然后对数据库中的标题进行分词，然后将分词结果做成索引表。输入一个查询内容，对查询内容进行分词，与数据库中的分词表进行...

python --爬虫爬取学校官网新闻并下载到本地

天上一滩水的博客

08-29

5983

统一文件的编码

爬取全部的校园新闻

weixin_30762087的博客

04-08

187

1.从新闻url获取新闻详情：字典,anews import requests from bs4 import BeautifulSoup from datetime import datetime import re def click(url): id=re.findall('(\d{1,5})',url)[-1] clickUrl='http://oa.g...

学校官网数据的爬取

weixin_42013825的博客

02-01

2148

import requests import re import bs4 from bs4 import BeautifulSoup as bs for i in range(1,11):#获取11页的新闻数据 if i==1: url = "http://news.gzcc.cn/html/xiaoyuanxinwen/index.html" else: ...

python 爬虫-1：下载网页源代码

wangs0622的博客

08-07

1731

下载静态网页源代码的 python 爬虫函数源代码：import urllib2 def download(url, num_retries = 5): ''' function: 下载网页源代码，如果遇到 5xx 错误状态，则继续尝试下载，直到下载 num_retries 次为止。 ''' print "downloading " , url try:

2025年软考高级 - 信息系统项目管理师考试备考全攻略

11-09

2025年软考高级 - 信息系统项目管理师考试备考全攻略

MySQL 5.7从入门到精通第23章新闻发布系统数据库设计共6页.pptx

最新发布

11-09

【课程大纲】第1章初始MySQL 共19页.pptx 第2章 MySQL的安装与配置共14页.pptx 第3章数据库的基本操作共11页.pptx 第4章数据表的基本操作共26页.pptx 第5章数据类型和运算符共17页.pptx 第6章 MySQL函数共76页.pptx 第7章查询数据共48页.pptx 第8章插入、更新与删除数据共10页.pptx 第9章索引共11页.pptx 第10章存储过程和函数共19页.pptx 第11章视图共20页.pptx 第12章触发器共11页.pptx 第13章用户管理共25页.pptx 第14章数据备份与还原共21页.pptx 第15章 MySQL日志共22页.pptx 第16章性能优化共18页.pptx 第17章 MySQL Workbench5.2 的使用共15页.pptx 第18章 MySQL Replication 共27页.pptx 第19章 MySQL Cluster 共49页.pptx 第20章 MySQL管理利器——MySQL Utilities 共5页.pptx 第21章读写分离的利器——MySQL Proxy 共5页.pptx 第22章 PHP操作MySQL数据库共7页.pptx 第23章新闻发布系统数据库设计共6页.pptx 第24章论坛管理系统数据库设计共6页.pptx

高分springboot毕设+vue的游戏创意工坊与推广平台的设计与实现_orv论文-Java源码.zip

11-09

本项目是一个基于Spring Boot和Vue的游戏创意工坊与推广平台的设计与实现。该项目旨在为游戏开发者和玩家提供一个集中的平台，使他们能够分享创意、展示作品并获取反馈。平台的核心功能包括游戏创意的提交与管理、游戏作品的展示与评价、用户间的互动交流以及推广活动的组织与管理。在技术实现上，后端采用Spring Boot框架，利用其快速开发和部署的特点，确保系统的稳定性和高效性。前端则使用Vue.js，以其灵活的数据绑定和组件化开发方式，为用户提供流畅的交互体验。数据库设计充分考虑了数据的安全性和扩展性，以支持大量用户和作品的存储需求。此外，项目还集成了多种实用工具和插件，如用户认证、权限管理、文件存储等，以提升平台的整体功能和用户体验。通过这个项目，用户不仅能够锻炼自己的编程技能，还能深入了解游戏开发和运营的全过程。

爬取学校官网新闻内容

12-26

要爬取学校官网的新闻内容，你可以使用Python中的urllib库和BeautifulSoup库来实现。首先，你需要安装这两个库。然后，你需要了解网页的基本知识和掌握Python的基础语法。下面是一个简单的示例代码，演示如何爬取...