python网页表名称一样抓取_python简易抓取网页表格

最新推荐文章于 2024-04-13 22:17:31 发布

灯火熄灭时

最新推荐文章于 2024-04-13 22:17:31 发布

阅读量147

点赞数

文章标签： python网页表名称一样抓取

本文链接：https://blog.csdn.net/weixin_36198878/article/details/113987643

版权

写了个小脚本，抓取一下一个网页上的表格内容。

内容如下：

# -*- coding:utf-8 -*-

#!/usr/bin/env python

import sys,urllib

from bs4 import BeautifulSoup

reload(sys)

sys.setdefaultencoding( "utf-8" )

def parse_page(filename):

f = open(filename,'r')

g = open('result', 'a+')

html = f.read()

soup = BeautifulSoup(html, from_encoding='utf-8')

for i in soup.find_all('tr'):

for j in i.find_all('td'):

content = j.string

g.write(u'%s,' % content)

g.write('\n')

g.close()

f.close()

baseurl = "https://www.touzi.com/simu/"

count = 0

for i in range(1,75):

count = count + 1

url = "company-cid-3-g1-h1-i2-p" + str(count) + ".html"

final_url = baseurl + url

print final_url

f = open(url, 'w')

wp = urllib.urlopen(final_url)

print "start download... %s " % url

content = wp.read()

f.write(content)

f.close()

parse_page(url)

处理完的数据放到一个result文件中保存。之后导入到excel中处理就可以了。基本实现了功能。但是应该不具备什么通用性。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

灯火熄灭时

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python读取网页表格数据库_python 提取网页表格数据库数据库

weixin_39882589的博客

12-15

640

python开源工具列表【持续更新】以下是个人在工作中整理的一些python wheel，供参考。这个列表包含与网页抓取和数据处理的Python库网络通用urllib-网络库(stdlib)。requests-网络库。grab–网络库(基于pycurl)。pycurl–网络库(绑定libcurl)。urllib3–...文章武耀文2018-04-253128浏览量初学指南| 用Pyt...

python3 爬取网页表格实例

07-01

python爬取网页的表格内容, 并存入csv文件, 网页地址:http://app.finance.ifeng.com/data/stock/yjyg.php?symbol=000001

参与评论您还未登录，请先登录后发表或查看评论

Python网页数据抓取以及表格的制作

07-16

Python的网页数据抓取，表格的制作，CSS文件的生成，字体的改变

【一天一个Python小案例】网页表格抓取

qq_39573785的博客

07-21

177

【一天一个Python小案例】网页表格抓取 import requests, json, os, csv from bs4 import BeautifulSoup import numpy as np def new_prop(prop_info): print(" new proposal ".center(20, "-")) print(" - num: %s\n" " - Source Name: %s\n" " - Proposal ID

Web-Scraping-with-Python_Python网页信息抓取_Python抓取网页_jupyter_Python抓

09-11

**Python网页信息抓取技术详解** 网页信息抓取，也称为网络爬虫或网页抓取，是通过自动化程序从互联网上获取大量数据的过程。在这个领域，Python语言因其强大的库支持和简洁的语法而成为首选工具。本教程将深入探讨...

ZQ.rar_python_抓取_抓取图片

09-23

标题中的"ZQ.rar_python_抓取_抓取图片"暗示了这个压缩包包含了一个Python脚本（ZQ.py）和可能的一些结果图片，用于演示或记录如何使用Python进行网络图片的抓取过程。描述进一步确认了这个主题，即利用Python进行...

Python实现抓取网页生成Excel文件的方法示例

12-24

本文实例讲述了Python实现抓取网页生成Excel文件的方法。分享给大家供大家参考，具体如下： Python抓网页，主要用到了PyQuery，这个跟jQuery用法一样，超级给力示例代码如下： #-*- encoding:utf-8 -*- import sys...

python抓取网页数据自动生成excel

qq_44074369的博客

07-13

1835

最近看了一篇关于网页抓取数据整理成表格的文章，感觉超级好有这方面需求的可以去看看

python提取网页表格并保存为csv

weixin_30634661的博客

10-22

477

0. 1.参考 W3C HTML 表格表格标签表格描述 <table> 定义表格 <caption> 定义表格标题。 <th> 定义表格的表头。 <tr> 定义表格的行。 <td> 定义表格单元。 <thead> 定义表格的页眉。 ...

python3获取关键词前后一行_Python爬虫：100万以大学专业为关键词的职位信息爬取...

weixin_39710966的博客

11-27

105

以大学本科专业为关键词，利用Python快速爬取100万职位信息一、系统环境：Windows 7+Python3.4+MongoDB二、爬取过程：（1）获取大学本科所有专业名称# 获取大学本科专业名称 def get_name(): url = 'http://yx.liexue.cn/zy/' wbdata = requests.get(url,headers=header).c...

15张超详细的Python学习路线图，纯良心分享，新手小白学习宝典

最新发布

m0_60452293的博客

04-13

439

是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！结合自身的学习经验以及与很多自学者的沟通了解，我们整理出。，供诸位尚未入门或刚入门不久的同学参考。

用python获取一个网页里面表格的数据

Candy_mi的博客

04-03

4478

一个简单的通过python获取网页里面表格数据的方法

Pathon爬取天气网站中的天气数据

01-04

5359

Python 爬取网页表格中的数据，并对解析错误的数据进行修复处理。用到的库：Requests，BeautifulSoup，Pandas.

10行代码爬取全国所有A股/港股/新三板上市公司信息

weixin_30646315的博客

11-10

987

摘要：我们平常在浏览网页中会遇到一些表格型的数据信息，除了表格本身体现的内容以外，可能还想透过表格背后再挖掘些有意思或者有价值的信息。这时，可用python爬虫来实现。本文采用pandas库中的read_html方法来快速准确地抓取网页中的表格数据。由于本文中含有一些超链接，微信中无法直接打开，所以建议点击最左下角阅读原文阅读，体验更好，也可以复制链接到浏览器打开： https://www.m...

python爬取网页表格_Python基于pandas爬取网页表格数据

weixin_39811193的博客

11-23

764

该网站数据存在table标签，直接用requests，需要结合bs4解析正则/xpath/lxml等，没有几行代码是搞不定的。今天介绍的黑科技是pandas自带爬虫功能，pd.read_html()，只需传人url，一行代码搞定。原网页结构如下：python代码如下：import pandas as pdurl='http://www.kuaidaili.com/free/'df=pd.read_...

python爬取网页表格数据匹配_爬取表格类网站数据并保存为excel文件

weixin_39800062的博客

11-28

1046

本文转载自以下网站:50 行代码爬取东方财富网上市公司 10 年近百万行财务报表数据 https://www.makcyun.top/web_scraping_withpython6.html主要学习的地方:1.分析网站的ajax请求信息2.构造参数3.发起请求后处理获得的数据4.保存表格重点:分析表格类网站的ajax请求,以及如何保存这类信息(关于表格方面的)通过分析网址 JavaScript ...

python之—将一个表格中相同名字的行的数据合并