python3爬取数据_python3爬取数据至mysql的方法

最新推荐文章于 2022-11-18 08:49:21 发布

麻辣酸菜鱼

最新推荐文章于 2022-11-18 08:49:21 发布

阅读量85

点赞数

文章标签： python3爬取数据

本文链接：https://blog.csdn.net/weixin_34928522/article/details/113498456

版权

#!/usr/local/bin/python3.5

# -*- coding:UTF-8 -*-

from urllib.request import urlopen

from bs4 import BeautifulSoup

import re

import datetime

import random

import pymysql

connect = pymysql.connect(host='192.168.10.142', unix_socket='/tmp/mysql.sock', user='root', passwd='1234', db='scraping', charset='utf8')

cursor = connect.cursor()

cursor.execute('USE scraping')

random.seed(datetime.datetime.now())

def store(title, content):

execute = cursor.execute("select * from pages WHERE `title` = %s", title)

if execute <= 0:

cursor.execute("insert into pages(`title`, `content`) VALUES(%s, %s)", (title, content))

cursor.connection.commit()

else:

print('This content is already exist.')

def get_links(acticle_url):

html = urlopen('http://en.wikipedia.org' + acticle_url)

soup = BeautifulSoup(html, 'html.parser')

title = soup.h1.get_text()

content = soup.find('div', {'id': 'mw-content-text'}).find('p').get_text()

store(title, content)

return soup.find('div', {'id': 'bodyContent'}).findAll('a', href=re.compile("^(/wiki/)(.)*$"))

links = get_links('')

try:

while len(links) > 0:

newActicle = links[random.randint(0, len(links) - 1)].attrs['href'] links = get_links(newActicle)

print(links)

finally:

cursor.close()

connect.close()

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

麻辣酸菜鱼

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python3爬取数据存入mysql_python 将爬取的数据存入mysql

weixin_29941275的博客

03-01

218

需求：将爬到的数据存入mysql思路：1、从文件中读取数据2、将数据存入到mysql中完整代码如下import pymysqlfrom os import pathimport timedef readFile(filePath):fileStr = open(filePath,encoding='utf-8')dataArray = list()for lineStr in fileStr.re...

python3爬取数据导入mysql_Python3实现的爬虫爬取数据并存入mysql数据库操作示例

weixin_30753697的博客

02-03

1738

本文实例讲述了Python3实现的爬虫爬取数据并存入Mysql数据库操作。分享给大家供大家参考，具体如下：爬一个电脑客户端的订单。罗总推荐，抓包工具用的是HttpAnalyzerStdV7，与chrome自带的F12类似。客户端有接单大厅，罗列所有订单的简要信息。当单子被接了，就不存在了。我要做的是新出订单就爬取记录到我的数据库zyc里。设置每10s爬一次。抓包工具页面如图：首先是爬虫，先找到数...

参与评论您还未登录，请先登录后发表或查看评论

Python - 03.怎么爬取数据

阿财继续努力

12-13

654

访问指定的URL需要导入【urllib.request】、【urllib.error】包，获取网页的HTML数据。解析HTML数据需要导入【bs4】的【BeautifulSoup】包，将网页的HTML数据解析成树形结构并返回。在HTML文件结构中，标签是层层嵌套的，每一个标签可以看作是树形结构的一个结点，通过调用select()方法可以查询指定的结点并返回。以【’.item’】为例，表示在当前结点下查询class="item"的标签；以【’.bd>p’】为例，表示在当前结点下查询class=".

python3.x爬虫：爬取大学排名数据

路ren甲

03-16

1742

import requests from bs4 import BeautifulSoup import bs4 def getHTMLText(url): try: r = requests.get(url, timeout=30) r.raise_for_status() r.encoding = r.apparent_encoding

python3爬虫数据解析实战

lzq520210的博客

08-07

659

如图所示，我想获取图片中画红框的src图片路径这里我们用urlib请求下来数据，然后用BeautifulSoup解析数据#python3 from bs4 import BeautifulSoup import urllib.request url='http://www.3jy.com' response=urllib.request.urlopen(url) #取右侧的一周热门排行的第一张图

Python3 网络爬虫＜教程全集＞

小哞^同^学的技术博客

01-03

3941

1.1 最简单的爬虫 @ 我的老师：Jack Cui PS：我是通过看 Jack Cui 老师的文章学习的爬虫，也为我之后的爬虫打开了大门。 1.1.1 URL 是什么？在学习爬虫之前，我们必须知道我们平常所说的网址，实际上叫做 URL。即：统一资源定位符（Uniform Resource Locator）它的格式通常都是：协议：//主机名[:端口]/资源路径/参数但是我们知道的是，一般我们看到的网址，好像都不是这么全。好像是隐藏了什么似的。对！没错，就是隐藏了点儿东西。

Python+Keras+opencv实现人脸识别

_Seven°的博客

06-06

3万+

Keras对人工智能来说，是一款比较好的入门框架。它是一个高级的Python神经网络框架，已经被添加到TensorFlow中，成为其默认的框架，为TensorFlow提供更高级的API。如果将TensorFlow比喻为编程界的Java或者C++，那么Keras就是编程界的Python，它作为TensorFlow的高层封装，可以与TensorFlow联合使用，用它可以快速搭建模型。并且Keras是T...

10-03

如果数据量较大，还可以考虑使用数据库如SQLite或MySQL进行存储。总之，这个项目涵盖了Python网络爬虫的基本流程，包括请求网页、解析HTML、提取数据和存储数据。在实际操作中，我们还需要考虑爬虫的效率、稳定性...

python3爬取数据至mysql的方法

12-25

本文实例为大家分享了python3爬取数据至mysql的具体代码，供大家参考，具体内容如下直接贴代码 #!/usr/local/bin/python3.5 # -*- coding:UTF-8 -*- from urllib.request import urlopen from bs4 import ...

Python爬取数据并写入MySQL数据库的实例

09-09

总结来说，这个实例演示了如何使用Python结合BeautifulSoup和Requests库进行网页数据爬取，以及如何利用MySQLdb库将这些数据存入MySQL数据库。通过这种方式，我们可以自动化地收集和存储大量网络数据，为数据分析或...

Python3实现的爬虫爬取数据并存入mysql数据库操作示例

09-09

在本示例中，我们将深入探讨如何使用Python3编写一个简单的网络爬虫，该爬虫能够抓取特定网页上的数据，并将这些数据存储到MySQL数据库中。首先，我们需要了解几个关键的Python库，包括`requests`、`re`（正则表达式...

用CNN卷积神经网络进行人脸识别

王猛的专栏

03-25

6545

1：对数据的处理class类 # -*- coding: utf-8 -*- import os import sys import numpy as np import cv2 IMAGE_SIZE = 64 #按照指定图像大小调整尺寸 def resize_image(image, height = IMAGE_SIZE, width = IMAGE_SIZE): top, bo...

python dlib人脸检测_python使用dlib进行人脸检测和关键点的示例

weixin_40004081的博客

12-05

416

#!/usr/bin/env python# -*- coding:utf-8-*-# file: {NAME}.py# @author: jory.d# @contact: dangxusheng163@163.com# @time: 2020/04/10 19:42# @desc: 使用dlib进行人脸检测和人脸关键点import cv2import numpy as npimport glo...

python3 urllib 内存泄露_Python3网络爬虫：urllib.error异常

weixin_39561004的博客

12-04

113

一.urllib.errorurllib.error可以接收有urllib.request产生的异常。urllib.error有两个方法，URLError和HTTPError。如下图所示：URLError是OSError的一个子类，HTTPError是URLError的一个子类，服务器上HTTP的响应会返回一个状态码，根据这个HTTP状态码，我们可以知道我们的访问是否成功。例如第二个笔记中提到的2...

python爬虫解析数据错误_Python网络爬虫数据解析的三种方式

weixin_42538175的博客

02-10

442

request实现数据爬取的流程：指定url基于request发起请求获取响应的数据数据解析持久化存储1.正则解析：常用的正则回顾：https://www.cnblogs.com/wqzn/p/9489313.html单字符：. : 除换行以外所有字符[] ：[aoe] [a-w] 匹配集合中任意一个字符d ：数字 [0-9]D : 非数字w ：数字、字母、下划线、中文W : 非ws ：所有的空...

维基百科爬虫python

sinat_36239376的博客

01-17

1540

import time import urllib import bs4 import requests start_url = "https://en.wikipedia.org/wiki/Special:Random" target_url = "https://en.wikipedia.org/wiki/Philosophy" def find_first_lin

python3 爬虫（初试牛刀）