python提取html_python(初学提取html页面元素，借用老师)

最新推荐文章于 2024-05-08 16:31:25 发布

weixin_39965161

最新推荐文章于 2024-05-08 16:31:25 发布

阅读量123

点赞数

文章标签： python提取html

-*- coding: utf-8 -*-

import urllib2

import os

def mean_audience_score(id):

arv = 0.0

sc_url = "http://movie.mtime.com/" + id + "/"

sc_req = urllib2.Request(sc_url, headers={‘User-Agent‘: "Magic Browser"})

sc_page = urllib2.urlopen(sc_req)

sc_strw = sc_page.read()

sc_str = re.findall(r‘+\d+\.+\d+‘, sc_strw)

if len(sc_str) == 0:

return arv

for tt in sc_str:

scsc = re.findall(r‘\d+\.+\d‘, tt)

arv += float(scsc[0])

return arv / len(sc_str)

url = ‘http://theater.mtime.com/China_Anhui_Province_Wuhu/‘

req = urllib2.Request(url,headers={‘User-Agent‘ : "Magic Browser"})

webpage = urllib2.urlopen(req)

strw = webpage.read()*0

print strw

tg_start = strw.find(‘hotplaySvList = [‘)

print tg_start

if tg_start == -1:

print ‘not find start tag‘

os._exit(0)

tmp = strw[tg_start:-1]

print tmp

tg_end = tmp.find(‘;‘)

print tg_end

if tg_end == -1 :

print ‘not find end tag‘

os._exit(0)

tmp = tmp[len(‘hotplaySvList = [‘):tg_end]

print tmp

tar_ls = tmp.split("},{")

dict_film = {}

for t0 in tar_ls:

ls_t = t0.split(‘,‘)

id = ls_t[0].split(‘:‘)[-1].strip()

film = ls_t[-1].split(‘"‘)[-2].strip()

dict_film[id] = film

for t in dict_film:

print "id:" + t + " film:" + dict_film[t]

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39965161

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python提取html中一段字符_python如何提取字符串？

weixin_39924674的博客

12-21

669

在Python中，要提取文本的字符串，有多中方法，如使用正则表达式，BeautifulSoup或Xpath等来提取。下面讲解用正则表达式来提取字符串。一、单个位置的字符串提取这种情况我们可以使用(.+?)这个正则表达式来提取。举例，一个字符串"a123b",如果我们想提取ab之间的值123，可以使用findall配合正则表达式，这样会返回一个包含所以符合情况的list。代码如下：import r...

python没有pygame_Python菜鸟快乐游戏编程_pygame

weixin_39718006的博客

10-21

1745

Python菜鸟快乐游戏编程_pygame(博主录制，2K分辨率)：http://dwz.date/cfGs本文为原创,转载请注明，作者 231469242@qq.com，微信公众号：pythonEducation作者Toby，持牌照消费金融公司模型专家，拥有国家算法相关专利，曾担任过国内最大医药数据中心负责人，和中科院有慢病数据挖掘项目合作。擅长python 机器学习，应用于医疗，英语...

参与评论您还未登录，请先登录后发表或查看评论

python:html元素解析

weixin_34137799的博客

07-10

120

说明主要是总结我通过python实现html解析的一个初步的思路和记录实现基础html解析的代码。本解析方式仅仅只是实现了html按元素解析的功能，具体元素的分类获取还得需要再进行进一步的优化。 html解析 html解析，当前实现我将其分为两个部分:一个是元素节点的定义，一个是元素节点解析。 1) 解析实现解析通过html的节点进行控制，通过遍历html中...

python获取html_如何在python程序中获取html元素

weixin_39662228的博客

11-29

316

我在使用html文件的地方有python代码。请参见以下代码：@app.route('/',endpoint='buf')def index():page = """Hello World Page

python获取html元素_JS获取HTML元素（6种方法）

weixin_39721000的博客

12-20

1509

从“JS document节点简介”一节中的表 2 和“JS元素节点的常用属性和方法”一节中的表 2 中可知，使用 document 和元素节点调用相应的一些方法可以获取 HTML 元素。而使用这些节点的相关属性则进而可以获取特定的节点，例如获取元素的所有子节点、第一个子节点、最后一个子节点、下一个兄弟节点和父节点。从而可以对元素或其相关节点作进一步的处理，如访问或设置元素的属性及样式、获取或设置...

高中python 教学设计_Python第二课教学设计及反思

weixin_39881958的博客

11-21

457

上完第一课后一直在思考第二课怎么上，直接讲解语法规则做练习题吗？习惯了作品式教学的我，已经不习惯那样传统的教学方法了。几经思考，上节课留给学生的任务启发了我，读程序、改程序是我当初学编程时最喜欢的，一门编程语言学习语法规则是最枯燥的，有些教材上看似细致的语法规则介绍总是让我云里雾里看不下去，而看一个相应的例子，试着调试一下改一下，很快就记住了。鉴于自己的这个学习经验，把这节课的题目确定为“从读和改...

python 软件包 petri_常用Petri网模拟软件工具简介

weixin_39881859的博客

12-21

1779

常用Petri网模拟软件工具简介首先要介绍的的一个非常有名的Petri 网网站--Petri Nets World：我这里介绍的软件大部分在该网站中的Tools and Software中的Petri Nets Tool Database里可以找到相关的链接。Petri网的相关模拟仿真软件现在已经相当成熟了，在国外已经有很多投入商用的案例。但目前每年的国际性Petri网学术会议上都有一个专题就是：...

python的sysfont_pygame.font.SysFont游戏文字交互

weixin_39876856的博客

02-04

1613

作者，持牌照消费金融模型经理，发明国家算法专利，国内大型医药数据中心担任过数据库负责人。和中科院，清华大学，百度，腾讯，爱奇艺等平台保持长期项目合作。擅长python 机器学习，应用于游戏，医疗，金融领域。曾经我也沉迷游戏，连续玩十几个小时竞技游戏可以不吃饭。游戏只是别人写好程序，与其沉迷于他人设计好程序，为何不自己设计游戏。于是便有了录制这部pygame菜鸟游戏编程教程动力。不要沉迷于游戏，我们...

python检测文件夹变化,并拷贝有更新的文件到对应目录的方法

12-23

学习python小一个月后写的这个功能，属于初学，若有大神路过，求代码优化~ newcopy.py：检测文件夹中最后修改时间变化的文件，并拷贝复制到相应路径下，拷贝目录会自动检测后输出；测试文件夹路径记得修改； ...

C#异步多线程知识点总结

木马人

10-02

205

一. 二.阻塞三。本地数据local和共享数据share 1.本地数据 2.共享数据四. 共享数据可能会导致（三）中的线程安全问题：五.锁

认识爬虫：beautifulsoup4 库如何使用三种方式提取 html 网页元素？

最新发布

sfdsfgdgd的博客

05-08

1406

Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习 Python 门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的 Python 学习资料，给那些想学习 Python 的小伙伴们一点帮助！

python解析html基础操作

zyp626的博客

09-11

6124

通过python的lxml对html文件进行基础的操作

python爬虫-HTML基础（简单实用）

pythonuser1的博客

08-02

1692

X-UA-Compatible这个是IE8特有的，知道即可，因为做前端的同学都很害怕IE因为他们问题比较多各个版本问题很诡异，当IE8的时候微软想把各个版本的统一，那么这个参数就出现了，他为了向下兼容，如下的代码如果使用IE8的时候他会以IE7的模式运行。关键字的作用一般是让爬虫之类的收录程序，当他们在爬你的网站的时候，如果你有关键字，那么他们会优先把关键字收录到他们的记录中，比如百度如果他们收录之后，他们搜索你的关键字的时候，就能找到咱们的网站。1、在当前文件中写Css样式。.........

如何用Python自动获取HTML元素的Xpath路径

码农1479的博客

03-01

2697

简单介绍了如何利用python自动获取HTML元素的Xpath路径表达式。

python web页面元素提取案例

honorwh的博客

09-02

5587

内容：提取国家地理中文网的图片链接（网站源码保存为HTML文档）本案例可以分成以下步骤： 1.读取保存在本地的HTML文档 2.解析并提取其中的图片链接 3.输出提取结果到屏幕 4.保存提取结果为文件采用自顶而下的的设计思路。以下是国家地理中文网的网页源码一角 def getHTMLlines(htmlpath): f=open(htmlpath,"r",encodin...

[python] 常用正则表达式爬取网页信息及分析HTML标签总结