爬取大学公告信息 beautifulsoup的使用

原创 2017年01月03日 17:34:50
# -*-coding:utf-8-*-
import re
import urllib2

from bs4 import BeautifulSoup


def print_zh(key):
    s = "u'%s'" % key
    s = eval(s)
    print(s)

keyList = [u'项目', u'交流']
keyResult = []
url = 'http://urp.tust.edu.cn/bulletinPageList.jsp?pageNum=1&groupIds=Nyw4'
req = urllib2.Request(url)
res = urllib2.urlopen(req)
soup = BeautifulSoup(res.read(), "lxml")
lists = soup.select('li.an-list')
for li in lists:
    lise = li.select('div[class="an-title block"]')
    if lise:
        te = re.findall(r'title="(.*)"', str(lise))[0]
        for key in keyList:
            tempkey = str(repr(key))   # 正则经常用到的repr函数,要查看在Python内部到底是怎么表示的 类似于 u'\u5c31\u4e1a'
            tempkey = repr(tempkey)    # 这一步把转义字符暴露出来,方便匹配  类似于  u'\\u5c31\\u4e1a'
            tempkey = tempkey[3:tempkey.__len__() - 2]   # 这一步把前面的 u' 和后面的 ' 删掉
            if re.search(r'' + tempkey + '', te):
                # 打印中文title
                print_zh(te)
                lise2 = li.select('div[class="dep-angency block"]')
                herf = re.findall(r'href="(.*)"\s', str(lise2))
                # 打印对应链接
                print(herf)
                depart = lise2[0].select('a.deptlink')[0].get_text()
                # 打印对门
                print(depart)
                date_d = li.select("p")
                # 打印日期
                print(date_d[0].get_text())
                print('\n')
                break

参考 http://www.mamicode.com/info-detail-1377315.html

版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

使用BeautifulSoup爬取“0daydown”网站的信息(1)

最近发现一个很好的网站,0daydown,资源真的是无时无刻的更新着。资源有哪些呢: windows,mac下的各种工具和软件。各种电子书,包含科技,小说,杂志(居然还有类似花花公子那种),可以看多国...

python3爬取使用BeautifulSoup爬取前程无忧的python招聘信息入库MongoDB!

import requests # 使用requests获取网页源码 from bs4 import BeautifulSoup # 使用bs4中的BeautifulSoup解析你得到的源码 im...

基于BeautifulSoup爬取豆瓣网上的电影信息

基于BeautifulSoup实现爬取豆瓣网上的电影信息这些天在学习Python,了解到用Python做网页网页爬虫非常的方便,于是琢磨着写了一个简单的爬虫程序(感谢万能的beautifulSoup框...

BeautifulSoup和Selenium对比爬取豆瓣Top250电影信息

这篇文章主要对比BeautifulSoup和Selenium爬取豆瓣Top250电影信息,两种方法从本质上都是一样的,都是通过分析网页的DOM树结构进行元素定位,再定向爬取具体的电影信息,通过代码的对...

[python爬虫] BeautifulSoup和Selenium对比爬取豆瓣Top250电影信息

这篇文章主要对比BeautifulSoup和Selenium爬取豆瓣Top250电影信息,两种方法从本质上都是一样的,都是通过分析网页的DOM树结构进行元素定位,再定向爬取具体的电影信息,通过代码的对...

Python爬虫(1)——基于BeautifulSoup爬取豆瓣电影信息

本文主要用BeautifulSoup来爬取豆瓣Top电影信息。软件环境基于Anaconda3+python3.5 具体代码如下所示:# -*- coding: utf-8 -*- """ Creat...

selenium+python+BeautifulSoup爬取知乎文章信息

本文通过selenium+python+BeautifulSoup来爬取知乎文章信息。#知乎推荐文章爬取 #2017/8/6 # -*- encoding = utf-8 -*- from sele...

Python爬虫urllib笔记(四)之使用BeautifulSoup爬取百度贴吧

BeautifulSoup-第三方分析网页内容库--替换正则表达式(有官方中文文档可查看) 提取百度贴吧网页中的楼主发的图片 # -*- coding:utf-8 - # # # Beau...

Python3.7 爬虫(三)使用 Urllib2 与 BeautifulSoup4 爬取网易云音乐歌单

版权声明:本文为 wintersmilesb101 -(个人独立博客– http://wintersmilesb101.online 欢迎访问)博主原创文章,未经博主允许不得转载。 废话在前面的的博客...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)