python抓取关键词_Python抓取关键词代码片段

最新推荐文章于 2023-11-05 14:30:14 发布

weixin_39609622

最新推荐文章于 2023-11-05 14:30:14 发布

阅读量423

点赞数

文章标签： python抓取关键词

用python来做数据抓取挖掘是很不错的，下边就是用python方法来抓取百度关键词的实现方法代码片段。

玩蛇网之前的python 爬虫系列视频教程中也有讲到python数据抓取相关的问题，有兴趣的朋友可以关注一下。

#-*- coding: UTF-8 -*-

#Python UTF-8

#key.txt是抓取文件配置

import cgi,urllib #URL读取

import re #正则匹配

import MySQLdb #MySQL

import datetime #时间

#import time,thread #多线程

"""

MySQL表结构

CREATE TABLE `baidu` (

`id` int(10) unsigned NOT NULL auto_increment,

`url` varchar(200) NOT NULL,

`title` varchar(600) NOT NULL,

`keys` varchar(100) NOT NULL,

`bdurl` varchar(200) NOT NULL,

`date` date NOT NULL,

PRIMARY KEY (`id`)

) ENGINE=MyISAM DEFAULT CHARSET=utf8 AUTO_INCREMENT=1 ;

"""

def Yang_Config ():

fp = open('key.txt','r')

for line in fp.read().split('@'):

word = line.split(',') #word 是字典

#for item in word :

#print item.encode("UTF-8")

#print '------'

if len(word) > 1:

yang_u = word[0]

yang_k = word[1]

Yang_Spider(yang_u,yang_k)

#抓取页面开始

def Yang_Spider(yang_u,yang_k):

url = 'http://www.baidu.com/s?wd=%s+site:%s&&rn=100'% (yang_k,yang_u)

print url

fp = urllib.urlopen(url).read()

#print fp re.search

m = re.findall(r"

()?(.?)\s?.?.? ((\d{4}\-\d{1,2}\-\d{1,2})|(\d+小时前)|(\d+分钟前)) .?.?
",fp)

if m:

#print m #

for s in m:#数组抓取过来是gbk 转码成utf8.encode("UTF-8") 是汉字decode('gbk') ASNII转UTF8 入数据库操作print str(s[3]) #

print '~~~'.join(s) #切割数组

Yang_MySQL (yang_k,yang_u,s)

#入库

#for i, s in enumerate(m.group(3)):

#print i,s

else:

print 'not search'

def Yang_MySQL (k,u,s):

global cursor,d

cursor.execute("set names utf8")

key_unicode = s[3].decode('gb2312') #gb2312

key_utf8 = key_unicode.encode('utf-8')

SQL = " INSERT INTO `baidukey`.`baidu` (`url` ,`title` ,`keys` ,`bdurl` ,`date`) VALUES ('%s', '%s', '%s','%s','%s'); " % (s[2],key_utf8,k,u,d)

insert = cursor.execute(SQL)

#print SQL

#www.iplaypy.com

#运行抓取函数

conn = MySQLdb.connect(host="localhost",user="phper",passwd="123456",db="baidukey")

cursor = conn.cursor()

t = datetime.datetime.now()

d = t.strftime('%Y-%m-%d')#%H:%M:%S

Del = " DELETE FROM `baidukey`.`baidu` WHERE date = '%s'" % (d)

cursor.execute(Del)

Yang_Config()

玩蛇网文章，转载请注明出处和文章网址：https://www.iplaypy.com/code/other/o2366.html

相关文章 Recommend

weixin_39609622

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python抓取关键词_Python抓取关键词代码片段

用python来做数据抓取挖掘是很不错的，下边就是用python方法来抓取百度关键词的实现方法代码片段。玩蛇网之前的python 爬虫系列视频教程中也有讲到python数据抓取相关的问题，有兴趣的朋友可以关注一下。#-*- coding: UTF-8 -*-#Python UTF-8#key.txt是抓取文件配置import cgi,urllib #URL读取import re #正则匹配impo...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。