python怎么爬虫数据库_Python网络爬虫与数据库

最新推荐文章于 2022-10-21 17:30:55 发布

静心佛门

最新推荐文章于 2022-10-21 17:30:55 发布

阅读量311

点赞数

文章标签： python怎么爬虫数据库

本文链接：https://blog.csdn.net/weixin_35644453/article/details/112905705

版权

import DataBaseHelper

import ThreadPool

import http.cookiejar

import urllib

#cookie 登录

cj = http.cookiejar.LWPCookieJar()

cookie_support = urllib.request.HTTPCookieProcessor(cj)

opener = urllib.request.build_opener(cookie_support, urllib.request.HTTPHandler)

db=DataBaseHelper.DbHelper(1,50000)

pool=ThreadPool.ThreadPool(20,500)

def crab(i):

url1="http://fangjia.fang.com/pghouse-c0suzhou/10-kw%cb%d5%d6%dd/"

try:

temp=opener.open(url1, timeout=30)

data=temp.read()

print(data)

db.add("insert into craw(information) values(%s)", [data.decode("GBK")])

finally:

temp.close()

opener.close()

try:

for i in range(0,1):

pool.add(crab, [i])

finally:

print("runOutAndJoin")

pool.runOutAndJoin()

print("pool quit")

pool.syncQuit()

db.quit()

#! /usr/bin/env python #coding=utf-8 import DataBaseHelper import re #get data from DataBase data = DataBaseHelper.fetchAll("select information from craw") #convert into string data = str(data) #print(data) #match pattern1 = r'\\r\\n\s*(.*?)\s*' pattern2 = r'(.*?)' match1 = re.findall(pattern1,data) match2 = re.findall(pattern2,data) #print(match1) #print(match2) try: #connect DataBase db = DataBaseHelper.DbHelper(1,10000) #write into the Database for i in range(0,len(match1)): db.add("insert into Data(Name) values(%s)", [match1[i]]) db.add("insert into Data(Address) values(%s)",[match2[i]]) finally: #close the DataBase db.quit()

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

静心佛门

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Python爬虫编程思想（84）：在Python中使用MySQL数据库

一个被知识诅咒的人

11-16

1357

目录 1. 安装MySQL 2. 在Python中使用MySQL MySQL是一个功能强大的网络关系型数据库，支持通过网络多人同时连接和操作数据库，目前国内外有很多网站的后台都是使用的MySQL数据库，本节会介绍MySQL数据库的安装，以及如何在Python中使用MySQL数据库。 1. 安装MySQL 本文将介绍如何在Windows、Mac OS X和Linux下安装MySQL。（1）在Windows下安装MySQL 首先通过下面的URL进入MySQL下载页面。 ...

python怎么爬虫数据库_Python与数据库-网络爬虫存储

weixin_39636691的博客

12-22

848

图片来自于网络Python与数据库-网络爬虫存储@(数据科学)[小树枝来了, 帮助, Markdown, 网络爬虫, 数据存储]关系数据库存储-MySQL为例爬虫配合MySQL存储瑞士军刀-SQLite分布式数据存储-NoSQL数据库爬虫配合mongoDB存储tips:使用虚拟环境时，conda安装的组件在jupyter中无法import，需要在虚拟环境中重新conda install jupyt...

参与评论您还未登录，请先登录后发表或查看评论

Python--（爬虫与数据库的连接）

dmg17866的博客

06-08

939

（每一天都是属于你的！） Python对于初学后巩固基础的人还是更多的来接触python爬虫会更好一些，在Python爬虫中包含很多基础部分知识，并且在项目中会提升你的成功感！加油！我在工作之余时间，把Python的爬虫基础内容整理了一下，资料因为太多所以都放在QQ群内了，需要的可以来---607021567。今天整理了一个两个网站的小说阅读平台的爬虫，将两个网站的小...

python 网络爬虫与数据库

weixin_42208646的博客

06-11

573

这是一个简单的爬取豆瓣电影TOP250的代码,爬去了每一条电影的18个维度的数据,并且将他们存储在本地的mysql数据库中. 详细代码如下. requests :请求网页,获取网页数据 lxml:使用xpath语法快速解析网页数据 # -*- coding: utf-8 -*- """ Created on Tue Jan 22 20:55:02 2019 @author: tide1...

3.2-python爬虫之数据库存储

Nosimper的博客

08-22

811

系列文章目录第一章：网络请求 1、爬虫前奏 2、http协议和chrome 3、urllib库文章目录系列文章目录前言一、mysql数据库1、安装mysql2、navicat 或 MySQL Workbench3、安装驱动程序4、数据库连接5、插入数据6、查找数据7、删除数据8、更新数据二、MongoDB数据库1、在windows 安装 mongodb2、mongodb 三元素3、mongodb 操纵命令4、python 操作 mongodb 前言摘录自B站对应课程笔记不愧是清华大佬！把P

Python网络爬虫与数据库

silverbullet的专栏

12-08

744

import DataBaseHelper import ThreadPool import http.cookiejar import urllib #cookie 登录 cj = http.cookiejar.LWPCookieJar() cookie_support = urllib.request.HTTPCookieProcessor(cj) opener = ur

python爬虫如何连接数据库_Python爬虫框架和数据库连接

weixin_39699912的博客

12-22

569

Published: 2016-12-03 15:59:00Scrapy的安装说明关于爬虫，Scrapy，在官网上资料很多，在这里主要记录一下流程，忽略的步骤等等以及爬出来的坑，也提醒一下自己还有就是一些自己接触的新概念的学习--是什么，怎么做，为什么，改进或者升级搭建语言环境0.操作系统，操作系统的位数Windows 32bit1.Python的版本以及位数安装Python完成后，记得设置环境变...

2：python网络爬虫权威指南_python网络爬虫权威指南_python爬虫指南_

09-29

网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

用Python写网络爬虫.rar_python 爬虫_python爬虫_python网络爬虫_写网络爬虫_精通python

07-15

用Python写网络爬虫,从最基础到精通

用Python写网络爬虫.pdf_爬虫_python爬虫_python写爬虫_网络爬虫_python爬虫_

09-30

Python爬虫需要处理这些问题，如更换User-Agent、使用代理IP池等。 9. **Scrapy框架**：对于大规模爬虫项目，Scrapy提供了一套完整的框架，包括请求调度、中间件处理、爬虫定义和数据管道等，提高了开发效率和可...

test_212_python爬虫_wos数据库_

10-01

标题中的“test_212_python爬虫_wos数据库_”表明这是一个关于使用Python编程语言进行网络爬虫开发，目标是获取WOS（Web of Science）数据库中的文献数据的项目。WOS数据库是一个广泛用于科研领域的学术文献检索平台...

python 数据库 爬虫

huicheng_chen的博客

07-29

201

环境准备已有环境可以忽略 python3 和 pip3 安装安装 selenium 下载Firefox驱动配置驱动的环境变量，或者将驱动放到已经配置好的文件夹中，类似 window 的 cmd的目录 window ：C:\Windows\System32 linux ：/usr/bin；/usr/local/bin 安装 pyquery 安装pymysq...

#14 Python爬虫的进阶之路---数据库介绍

lrzbupt的博客

05-14

234

SQL语法两个部分：数据定义语言（DDL）和数据操作语言（DML）前者用于创建或删除表格，定义索引，规定链接，施加约束后者用于增删改查 SQL语法对大小写不敏感 primary key 关键词DISTINCT 加在 SELECT之后，用于合并重复值有条件查找用到where子句还可以使用and与or以及括号进行合并查找排序则需要用到ORDER BY语句，默认按照ASC升序，可以改为...

python爬虫连接数据库_python爬虫--连接数据库

weixin_42517649的博客

02-04

487

数据库sql装在主机上，主机IP：192.168.00.00(例子)程序运行在虚拟机中，虚拟机IP：192.168.11.11sqlserver用的不熟练，安装太麻烦，正好需要用的功能不多，就装了PHPstudy，里面有sql工具，建数据库，建表，完成。虚拟机连接数据库：主要用到MySQLdb模块，连接数据库。另外，还用了模块pymssqlconn=pymssql.connect(host=‘19...

python爬虫教程（9）-python操作MySQL数据库

pynickle的博客

02-18

709

欢迎来到python爬虫大讲堂，现在开始你的爬虫旅程吧！ python操作mysql数据库首先我们要安装pymysql库，在cmd中输入： pip install pymysql 接下来我们来试试操作mysql数据库： import pymysql conn = pymysql.connect(host="localhost", user="root", passwd="passwd", db...

Redis的安装与基础命令

m0_46684016的博客

12-03

175

Redis安装教程 1.下载解压与编译 yum install gcc 安装前先安装gcc依赖 1）个人习惯 cd /usr/local #进入这个目录 mkdir redis #创建redis文件夹 ll #可以看到刚创建的redis文件夹 cd redis 2）进入刚创建的redis文件夹后执行命令 wget -c 你复制的链接 # 如 wget -c http://download.redis.io/releases/redis-6.0.9.tar.gz

python爬虫6：爬虫和数据库的连接

qq_48673191的博客

10-21

1304

爬取数据保存到mysql数据库中

基于ssm的二手车交易网站设计与实现.docx