python爬虫
deli_111
这个作者很懒,什么都没留下…
展开
-
正则表达式
正则提取字符方式[abc]abc中的一个[a-z]a-z中的一个[0-9]0-9中的一个数字[a-f0-5]a-f或者0-5 一个就可以[ab] [de][12]每个[]取一个,连起来元字符1:对于 . 的使用,以及字符串的方法. 任意单字符 ,匹配不了 \n就想表示字符串的 . 这么写 \.\d一个数字 相当...原创 2018-10-25 19:46:20 · 153 阅读 · 2 评论 -
BeautifulSoup方法提取网页内容,并且保存到csv和excel中
纯爬虫框架1: 设置头部文件(浏览器头部,代理IP)#浏览器头部USER_AGENT = [ "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50", "Mozilla/5.0 (Win...原创 2018-10-21 16:57:47 · 11659 阅读 · 3 评论 -
python中csv文件中数据添加到MongoDB数据库
使用csv中的DictReader函数读取#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2018/10/21 11:31# @Author : deli Guo# @Site : # @File : csv文件存入mongoDB.py# @Software : PyCharm# 导包from pymo...原创 2018-10-21 13:36:42 · 6612 阅读 · 5 评论 -
python中CSV文件数据存入mysql数据库
使用pandas读取文件自定义函数添加数据#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2018/10/20 10:32# @Author : deli Guo# @Site : # @File : test3.py# @Software : PyCharmimport pymysqlimport p...原创 2018-10-21 11:06:33 · 8127 阅读 · 8 评论 -
Python爬虫requests添加头部和代理获取网页内容
头部user_agent = [ "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50", "Mozilla/5原创 2018-10-15 19:02:55 · 2180 阅读 · 2 评论