GZ_Wiilian-CSDN博客

原创爬取起点小说并存入数据库

最终效果如下：······················主程序：·······································# -*- coding: utf-8 -*-import scrapyimport requestsimport jsonfrom qidian.items import QidianItemclass Myqidia...

2018-09-20 20:44:08 5319 4

原创 KNN算法

K-近邻算法（KNN）K nearest neighbour0、导引¶如何进行电影分类众所周知，电影可以按照题材分类，然而题材本身是如何定义的?由谁来判定某部电影属于哪个题材?也就是说同一题材的电影具有哪些公共特征?这些都是在进行电影分类时必须要考虑的问题。没有哪个电影人会说自己制作的电影和以前的某部电影类似，但我们确实知道每部电影在风格上的确有可能会和同题材的电影相近。那么...

2018-09-04 20:43:24 734

原创爬取奔腾官网汽车经销商（上）

以前曾经想爬取一些汽车官网，了解一下他们在中国的店的情况，分布。然后这个网站之前爬取过，不过没成功，最近重新爬取了一下，成功了。这个网站我要的数据主要是用json储存的，需要先获得省份id，再拼接链接获取城市id，再从城市id拼接的链接获取我想要的内容。之后会做一个可视化。import requestsimport lxmlfrom lxml import etreeimport jso...

2018-08-22 09:13:05 732

原创用scrapy爬取妹纸网站图片，并储存在本地

# -*- coding: utf-8 -*-爬虫入口import scrapyfrom scrapypc.items import ScrapypcItemclass AppSpider(scrapy.Spider): name = 'app' allowed_domains = ['meizitu.com'] # allowed_domains = [] ...

2018-08-22 09:04:56 414

原创爬取tengxun招聘并存入到mysql中

import requestsimport refrom bs4 import BeautifulSoupimport mathheaders = { "User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrom...

2018-08-16 09:11:42 319

原创爬取某里的社招网python岗位及全部岗位

import urllibfrom urllib import request,parseimport jsonheaders={"User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106...

2018-08-13 22:27:33 443

原创用python3爬取豆瓣电影数据

import urllibfrom urllib import requestimport json#伪造浏览头headers = { "User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.34...

2018-08-13 21:24:21 994

原创 python下的Sympy库

sympy介绍：Sympy是一个数学符号库（sym代表了symbol，符号），包括了积分，微分方程等各种数学运算方法，为python提供了强大的数学运算支持。对于图像来说，虽然都是做离散的计算，操作最多的还是numpy里的数组，但实际上，这个库包含了积分微分，三角等最基本的数学运算，可以说是工科最基本的，用起来媲美matlab。 --摘自网络Sympy安装方法安装命令：pip inst...

2018-08-09 10:58:14 6712

原创利用scrapy爬取某汽车网站经销商店信息

最近做一个爬虫项目，爬取经销商店信息，随附代码import scrapyfrom scrapy.http import Requestfrom dealer.items import DealerItemclass XcarSpider(scrapy.Spider): name = "xcar" allowed_doma = ["xcar.com.cn"] st...

2018-07-15 16:11:56 785

pyecharts 是一个用于生成 Echarts 图表的类库，通过Python 实现与Echarts的对接。通用配置项xyAxis：平面直角坐标系中的 x、y 轴。(Line、Bar、Scatter、EffectScatter、Kline)dataZoom：dataZoom 组件用于区域缩放，从而能自由关注细节的数据信息，或者概览数据整体，或者去除离群点的影响。(Line、Bar、Scatte...

2018-07-15 15:56:48 3703

原创 git分布式管理系统

gitGit是目前世界上最先进的分布式版本控制系统 .git的故事很多人都知道，Linus在1991年创建了开源的Linux，从此，Linux系统不断发展，已经成为最大的服务器系统软件了。在2002年以前，世界各地的志愿者把源代码文件通过diff的方式发给Linus，然后由Linus本人通过手工方式合并代码！ Linus花了两周时间自己用C写了一个分布式版本控制系统，这就是Git！一个月之内，L...

2018-07-04 10:16:01 393

原创用python从mysql数据库导出数据存在csv（0.95s完成38000条数据导出）

import pymysqlimport csvimport codecsdef get_conn(): db = pymysql.connect(host="12xxx",port=3306, user="root",password="1", db="pydata201806"...

2018-06-28 20:01:03 4002

原创用python将csv文件导入mysql

import pymysqlimport csvimport codecsdef get_conn(): db = pymysql.connect(host="12xxxx",port=3306, user="root",password="13xxx", db="pydata201806",charse...

2018-06-28 15:45:15 4533

原创前端写QQ注册页面

<!DOCTYPE html><html> <head> <meta charset="UTF-8"> <title></title> <style type="text/css"> *{ margin: 0; padding: 0; } .bo

2018-06-21 10:12:31 1374

原创用前端写BMI计算并且提交数据

<!DOCTYPE html><html> <head> <meta charset="UTF-8"> <title></title> <style type="text/css"> *{ margin: 0; padding: 0; }

2018-06-21 10:10:17 2754

原创用HBuilder写一个开心网注册账号的页面

<!DOCTYPE html><html> <head> <meta charset="UTF-8"> <title>开心网</title> <style type="text/css"> *{ margin: 0; padding: 0;

2018-06-13 10:09:45 7106

原创用html写一个简历

<!DOCTYPE html><html> <head> <meta charset="UTF-8"> <style type="text/css"> *{ margin: 0; padding: 0; } .jianli{ width: 800px; height: 1000px;

2018-06-12 14:44:58 4111

原创 HTML表格

<!DOCTYPE html><html> <head> <meta charset="UTF-8"> <title>简历表格</title> </head> <body> <table width="630px" heigh

2018-06-12 14:40:12 242

原创正则表达式常用函数

import re'''re.compile(pattern，flags)参数一：正则表达式参数二：标志位功能：返回一个正则表达式的对象，我们可以使用此对象对我们的字符串进行正则。简化代码。'''str2 = r"/* part1 */ /* part2 */"com = re.compile(r"/\*.*?\*/")# print(com.findall(str2))'''re.match(...

2018-06-06 21:00:31 420

原创 python常见的列表问题处理

# 1.对一个列表进行冒泡排序app = [1, 3, 8, 5, 8, 10]for i in range(len(app)): for j in range(i): if app[j] > app[j+1]: app[j], app[j+1] = app[j+1], app[j]print(app)# 2.删除列表中的重复元素l...

2018-05-18 21:53:31 348

原创 python 关于IF的使用案例

import mathimport random#练习1，判断是否润年 def fan(): year = int(input("你问我猜:")) if (year % 400 == 0) or (year % 4 == 0 and year % 100 != 0): print("您输入的年份[%d]是润年" % year) else: p...

2018-05-16 20:10:49 656

原创 python的概述

python的概述什么是pythonpython 是一种解释型.面向对象.动态数据类型的高级程序设计语言python的特点1.解释性语言2.交互式语言3.面向对象语言4.初学者语言python的优缺点优点:1.易于学习2.易于阅读3.广泛的标准库4.互动模式5.可移植性6.易于维护7.数据库8.GUI编程缺点:1.运行速度慢2.代码不能加密python能做什么web后端网络爬虫自动化运维自动化测试...

2018-05-15 19:39:57 711

GZ_Wiilian的博客